コンテンツへスキップ
- BIG-Bench Extra Hard [98.4]
大規模言語モデル(LLM)は、ますます日常的なアプリケーションにデプロイされ、堅牢な一般的な推論機能を必要としている。 BIG-Benchデータセットは、LLMの一般的な推論能力を評価するための重要なベンチマークとして機能している。 最先端のモデルは、BIG-Benchの多くのタスクにおいてほぼ完璧なスコアを得るため、その実用性は低下する。 BIG-Bench Extra Hard (BBEH) は, LLM推論評価のバウンダリを推し進めるための新しいベンチマークである。
論文 参考訳(メタデータ) (Wed, 26 Feb 2025 14:50:50 GMT)
- BIG-Benchの強化版、「Solving the tasks in BBEH requires even further reasoning skills than the problems in BBH. These skills include, but are not limited to, many-hop reasoning, learning on the fly, finding errors in reasoning traces, processing long-context inputs and finding (multi-)needles in a haystack, going against strong prior, dealing with long-range dependencies, dealing with distractors and inducing patterns from examples.」と推論に関する能力が必要になるよう。LRM、o3-mini(high)はまずまずのスコアである一方で一部タスクを苦手としているDeepseek R1のスコアが低いのが興味深い。
- リポジトリはGitHub – google-deepmind/bbeh
- More Documents, Same Length: Isolating the Challenge of Multiple Documents in RAG [15.9]
マルチホップQAタスクから派生したカスタムデータセットの様々な言語モデルを評価する。 我々は文書数を変えながら関連情報のコンテキスト長と位置を一定に保ち、RAG設定における文書数の増加がLCMにとって大きな課題となることを発見した。
論文 参考訳(メタデータ) (Thu, 06 Mar 2025 12:38:17 GMT)
- ドキュメント数とRAG性能の関係の検証。「We keep the context length and position of relevant information constant while varying the number of documents, and find that increasing the document count in RAG settings poses significant challenges for LLMs.」と文書数の増加は悪影響を与えるとのこと。「The effects of adding non-related documents When adding irrelevant documents, LLMs’ performance improves.」はFugu-MT 論文翻訳(概要): The Power of Noise: Redefining Retrieval for RAG Systemsと同じような話なのだろうか。
- リポジトリはGitHub – shaharl6000/MoreDocsSameLen
- Generative Models in Decision Making: A Survey [63.7]
生成モデルは、高逆状態反応領域や中間部分ゴールへエージェントを誘導する軌道を生成することによって意思決定システムに組み込むことができる。 本稿では,意思決定タスクにおける生成モデルの適用について概説する。
論文 参考訳(メタデータ) (Mon, 24 Feb 2025 12:31:28 GMT)
- 生成モデル(Energy Based Models (EBMs), Generative Adversarial Networks (GANs), Variational Autoencoders (VAEs), Normalizing Flow (NFs), Diffusion Models (DMs), GFlowNets (GFNs), and Autoregressive Models (AMs).)と意思決定のサーベイ。アプリケーションは「robot control, autonomous driving, games, structural generation, and optimization.」を想定。