Improving Factuality with Explicit Working Memory

  • Improving Factuality with Explicit Working Memory [63.5]
    大規模な言語モデルは、幻覚として知られる、事実的に不正確なコンテンツを生成することができる。 EWE(Explicit Working Memory)は、外部リソースからのリアルタイムフィードバックを受信するワーキングメモリを統合することで、長文テキスト生成における事実性を高める新しい手法である。
    論文  参考訳(メタデータ)   (Tue, 24 Dec 2024 00:55:59 GMT)
  • 事実性を守る生成を支援する手法の提案。「Ewe pauses at given intervals and refreshes its working memory based on feedback from retrieval and fact-checking models, ensuring that the generated content remains accurate and relevant. By integrating this working memory into each attention layer of the Transformer architectures, Ewe can be easily adapted to various large language models.」という動作で、このようなモデルに処理(の一部)を組み込むRAG的な動作は流行っていくんだろうなーと思わなくもない。

Combating Multimodal LLM Hallucination via Bottom-up Holistic Reasoning

  • Combating Multimodal LLM Hallucination via Bottom-up Holistic Reasoning [151.4]
    マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。 本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。 本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
    論文  参考訳(メタデータ)   (Sun, 15 Dec 2024 09:10:46 GMT)
  • MLLM、VQAタスクを対象としたハルシネーション対策、1. Target Identification and Visual Perception, 2. Visual Perception Verification, 3. Question Validation and Adjustment, 4. Commonsense Induction, 5. Commonsense Verification, 6. Question answeringというモジュールで構成。

Findings of the Second BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora 

  • Findings of the Second BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora [79.0]
    BabyLM Challengeは、人間と計算言語学習者のデータ効率ギャップを埋めるためのコミュニティの取り組みである。 参加者は1億ワード以下の固定言語データ予算で、言語モデルトレーニングを最適化するために競争する。
    論文  参考訳(メタデータ)   (Fri, 06 Dec 2024 16:06:08 GMT)
  • 「Participants could submit to a 10M-word text-only track, a 100Mword text-only track, and/or a 100M-word and image multimodal track.」というデータを制限したコンペの結果
  • 「With 31 submissions from 17 countries, the challenge revealed several key insights: innovations in model architecture, training objectives, and dataset construction proved particularly effective, with GPT-BERT, a hybrid causalmasked language model architecture, emerging as the strongest approach for the Strict and StrictSmall tracks.」とのこと

VISA: Retrieval Augmented Generation with Visual Source Attribution

  • VISA: Retrieval Augmented Generation with Visual Source Attribution [100.8]
    RAGの既存のアプローチは主に生成されたコンテンツをドキュメントレベルの参照にリンクする。 本稿では,視覚的ソース属性と解答生成を組み合わせた新しい手法として,視覚的ソース属性を用いた検索補助生成(VISA)を提案する。 本手法の有効性を評価するため,ウィキペディアのWebページスクリーンショットをクロールしたWiki-VISAとPubLayNetから派生したPaper-VISAの2つのデータセットを作成した。
    論文  参考訳(メタデータ)   (Thu, 19 Dec 2024 02:17:35 GMT)
  • 回答の根拠として文書内にバウンディングボックスを提示するRetrieval-Augmented Generation with Visual Source Attribution (VISA)の提案
  • 現実的で重要なタスク。コードやデータセットなど公開予定とのこと。

LLMs-as-Judges: A Comprehensive Survey on LLM-based Evaluation Methods

TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks

  • TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks [52.5]
    私たちは小さなソフトウェア企業環境を模倣したデータによる自己完結型環境を構築します。 最も競争力のあるエージェントでは、タスクの24%が自律的に完了できます。 これは、LMエージェントによるタスク自動化に関するニュアンスな絵を描く。
    論文  参考訳(メタデータ)   (Wed, 18 Dec 2024 18:55:40 GMT)
  • 「TheAgentCompany measures the progress of these LLM agents’ performance on performing real-world professional tasks, by providing an extensible benchmark for evaluating AI agents that interact with the world in similar ways to those of a digital worker: by browsing the Web, writing code, running programs, and communicating with other coworkers.」というベンチマーク。現状、Claude 3.5 Sonnetの性能が高い結果になっているが、o1やo3での結果が気になるところ。
  • プロジェクトサイトはTheAgentCompany、リーダーボードはTheAgentCompany

AnySat: An Earth Observation Model for Any Resolutions, Scales, and Modalities 

  • AnySat: An Earth Observation Model for Any Resolutions, Scales, and Modalities [5.8]
    本稿では,JEPAと分解能適応型空間エンコーダに基づくマルチモーダルモデルであるAnySatを提案する。 この統一アプローチの利点を示すために、5ドルのマルチモーダルデータセットのコレクションであるGeoPlexをコンパイルする。 次に、これらの多様なデータセット上で、単一の強力なモデルを同時にトレーニングします。
    論文  参考訳(メタデータ)   (Wed, 18 Dec 2024 18:11:53 GMT)
  • 様々な Earth observationデータを統合的に扱える基盤モデルの提案。「We have presented AnySat, a versatile architecture designed to address the diversity of EO data in terms of resolutions, scales, and modalities.」ということで効果も検証されている。
  • リポジトリはGitHub – gastruc/AnySat

How to Synthesize Text Data without Model Collapse?

  • How to Synthesize Text Data without Model Collapse? [37.2]
    合成データのモデル崩壊は、自己生成データに対する反復的なトレーニングが徐々に性能を低下させることを示している。 半合成データを得るために,人為的データに対するトークン編集を提案する。
    論文  参考訳(メタデータ)   (Thu, 19 Dec 2024 09:43:39 GMT)
  • 合成データを用いたモデル構築で、モデル崩壊の分析とそれを抑える手法の提案。

SafeWorld: Geo-Diverse Safety Alignment

  • SafeWorld: Geo-Diverse Safety Alignment [107.8]
    大規模言語モデル(LLM)を評価するために特別に設計された新しいベンチマークであるSafeWorldを紹介する。 SafeWorldには2,342のユーザクエリが含まれており、それぞれ50か国と493のリージョン/ラストから、高品質で人間認証された文化規範と法的ポリシーを基礎としている。 トレーニングされたSafeWorldLMは、GPT-4oを含む競合モデルの3つの評価次元を大きなマージンで上回ります。
    論文  参考訳(メタデータ)   (Mon, 09 Dec 2024 13:31:46 GMT)
  • 安全性評価のためのベンチマーク、「SAFEWORLD encompasses 2,342 test user queries, each grounded in high-quality, human-verified cultural norms and legal policies from 50 countries and 493 regions/races.」と文化的側面に注意が払われている。
  • リポジトリはGitHub – PlusLabNLP/SafeWorld

Think&Cite、RAG-Star

  • Think&Cite: Improving Attributed Text Generation with Self-Guided Tree Search and Progress Reward Modeling [64.0]
    大型言語モデル(LLM)は幻覚を起こし、事実的に誤った情報を生み出す傾向にある。 我々はThink&Citeと呼ばれる新しいフレームワークを提案し、検索と統合された多段階推論問題として属性付きテキスト生成を定式化する。
    論文  参考訳(メタデータ)   (Thu, 19 Dec 2024 13:55:48 GMT)
  • エビデンス付きのテキスト生成のためSelf-Guided Monte Carlo Tree Search (SG-MCTS)を提案。モンテカルロツリーを使って性能を上げようという取り組みは多いが「To the best of our knowledge, we are the first to apply tree search algorithms to the task of attributed text generation.」はそうかもしれない。
  • RAGなどを上回る性能を達成とのこと。有効な手法に思える。
  • RAG-Star: Enhancing Deliberative Reasoning with Retrieval Augmented Verification and Refinement [85.1]
    既存の大規模言語モデル(LLM)は、例外的な問題解決能力を示すが、複雑な推論タスクに苦労する可能性がある。 検索情報を統合した新しいRAG手法である RAG-Star を提案する。 Llama-3.1-8B-Instruct と GPT-4o を併用した実験により,RAG-Star は従来のRAG と推理法を著しく上回っていることが示された。
    論文  参考訳(メタデータ)   (Tue, 17 Dec 2024 13:05:36 GMT)
  • 「RAG-Star employed Monte Carlo Tree Search to search intermediate sub-queries and corresponding answers. Moreover, RAG-Star introduced retrieval-augmented verification to evaluate the plausibility and consistency of the planned subqueries and answers based on a query-aware and an answer-aware reward.」とこちらはRAGにMonte Carlo Tree Searchを組み合わせるタイプの報告