2024年5月15日 – arXiv最新論文の紹介

Hallucination of Multimodal Large Language Models: A Survey [40.7]
マルチモーダル大規模言語モデル(MLLM)は,多モーダルタスクにおいて顕著な進歩と顕著な能力を示した。これらの有望な発展にもかかわらず、MLLMは視覚的内容と矛盾する出力をしばしば生成する。本調査は,MLLMにおける幻覚の理解を深め,この分野のさらなる進歩を促すことを目的としている。
論文参考訳（メタデータ） (Mon, 29 Apr 2024 17:59:41 GMT)
マルチモーダルなLLMを対象としたハルシネーションのサーベイ、最新動向を整理するのに有用。
論文リポジトリもある　GitHub – showlab/Awesome-MLLM-Hallucination: 📖 A curated list of resources dedicated to hallucination of multimodal large language models (MLLM).

xLSTM: Extended Long Short-Term Memory [26.6]
1990年代、Long Short-Term Memory (LSTM) の中心概念として、定数エラーカルーセルとゲーティングが導入された。正規化と安定化を適切に行う指数ゲーティングを導入する。 i)スカラーメモリ,スカラー更新,新しいメモリ混合,(ii)行列メモリと共分散更新ルールと完全に並列化可能なmLSTM。
論文参考訳（メタデータ） (Tue, 07 May 2024 17:50:21 GMT)
LSTMの拡張、「xLSTM models perform favorably on language modeling when compared to state-of-the-art methods like Transformers and State Space Models.」と主張。RWKVやMamba、Llamaと詳細な比較を行っているが、より大規模だとどうなるかが気になるところではある。