Think&Cite、RAG-Star

  • Think&Cite: Improving Attributed Text Generation with Self-Guided Tree Search and Progress Reward Modeling [64.0]
    大型言語モデル(LLM)は幻覚を起こし、事実的に誤った情報を生み出す傾向にある。 我々はThink&Citeと呼ばれる新しいフレームワークを提案し、検索と統合された多段階推論問題として属性付きテキスト生成を定式化する。
    論文  参考訳(メタデータ)   (Thu, 19 Dec 2024 13:55:48 GMT)
  • エビデンス付きのテキスト生成のためSelf-Guided Monte Carlo Tree Search (SG-MCTS)を提案。モンテカルロツリーを使って性能を上げようという取り組みは多いが「To the best of our knowledge, we are the first to apply tree search algorithms to the task of attributed text generation.」はそうかもしれない。
  • RAGなどを上回る性能を達成とのこと。有効な手法に思える。
  • RAG-Star: Enhancing Deliberative Reasoning with Retrieval Augmented Verification and Refinement [85.1]
    既存の大規模言語モデル(LLM)は、例外的な問題解決能力を示すが、複雑な推論タスクに苦労する可能性がある。 検索情報を統合した新しいRAG手法である RAG-Star を提案する。 Llama-3.1-8B-Instruct と GPT-4o を併用した実験により,RAG-Star は従来のRAG と推理法を著しく上回っていることが示された。
    論文  参考訳(メタデータ)   (Tue, 17 Dec 2024 13:05:36 GMT)
  • 「RAG-Star employed Monte Carlo Tree Search to search intermediate sub-queries and corresponding answers. Moreover, RAG-Star introduced retrieval-augmented verification to evaluate the plausibility and consistency of the planned subqueries and answers based on a query-aware and an answer-aware reward.」とこちらはRAGにMonte Carlo Tree Searchを組み合わせるタイプの報告

A Survey on Large Language Model-Based Social Agents in Game-Theoretic Scenarios

  • A Survey on Large Language Model-Based Social Agents in Game-Theoretic Scenarios [44.0]
    ゲーム理論のシナリオは、Large Language Model(LLM)ベースのソーシャルエージェントの社会的インテリジェンスを評価する上で重要なものとなっている。 本調査では,研究成果をゲームフレームワーク,ソーシャルエージェント,評価プロトコルの3つのコアコンポーネントにまとめる。
    論文  参考訳(メタデータ)   (Thu, 05 Dec 2024 06:46:46 GMT)
  • ゲーム理論な文脈でのLLM based Agentsのサーベイ。

From Intention To Implementation: Automating Biomedical Research via LLMs 

  • From Intention To Implementation: Automating Biomedical Research via LLMs [32.0]
    本稿では,バイオメディカル研究プロセス全体を合理化するために設計された,初のエンドツーエンド自動システムであるBioResearcherを紹介する。 複雑なタスクを論理的に関連するサブタスクに分解することで、BioResearcherは多分野要求と論理複雑性の課題を効果的に解決する。 BioResearcherは8つの未測定研究目標に対して平均実行成功率63.07%を達成している。
    論文  参考訳(メタデータ)   (Thu, 12 Dec 2024 16:35:05 GMT)
  • 「BioResearcher employs a modular multi-agent architecture, integrating specialized agents for search, literature processing, experimental design, and programming.」とのこと。
  • 解釈が難しい数値とはいえ、達成率はかなり高い印象。。。

The BrowserGym Ecosystem for Web Agent Research

Large Language Model-Brained GUI Agents: A Survey

  • Large Language Model-Brained GUI Agents: A Survey [43.2]
    マルチモーダルモデルはGUI自動化の新しい時代を支えてきた。 彼らは自然言語理解、コード生成、視覚処理において例外的な能力を示した。 これらのエージェントはパラダイムシフトを表しており、ユーザーは単純な会話コマンドで複雑なマルチステップタスクを実行できる。
    論文  参考訳(メタデータ)   (Wed, 27 Nov 2024 12:13:39 GMT)
  • GUI Agents with Foundation Models: A Comprehensive Survey – arXiv最新論文の紹介ににたサーベイだが、こちらはMicrosoftの研究者が筆頭著者。

Model Context Protocol (MCP), QwQ, OLMo 2

先週も様々なニュースがあったが、注目はAnthropicのModel Context Protocolである。 Introducing the Model Context Protocol \ AnthropicIntroduction – Model Context Protocol

ザックリとはLLMと外部データやツールを統合するためのプロトコルである。外部ツール利用やメモリの拡張利用などを前提としたLLMを構築する場合、この手の標準があるかないかは重要。MCPがデファクトスタンダードとなれるか興味津々。

公開モデル関連では極めて性能の高いQwen with Questions(QwQ)、以前取り上げたDolmaとOLMo – arXiv最新論文の紹介のver 2であるOLMo 2に要注目である。O1 Replication JurneyやTULU3もだが、どのような手法、アプローチで性能が上がるのかなどをオープンにした取り組みの価値は高い。

  • O1 Replication Journey — Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson? [30.9]
    本稿では,OpenAIのO1モデル機能を複製する現在のアプローチについて,批判的な考察を行う。 O1のAPIからの単純な蒸留と教師付き微調整を組み合わせることで、複雑な数学的推論タスクにおいて優れた性能が得られることを示す。
    論文  参考訳(メタデータ)   (Mon, 25 Nov 2024 15:31:27 GMT)
  • OpenAI o1に関する研究、Fugu-MT 論文翻訳(概要): O1 Replication Journey: A Strategic Progress Report — Part 1からのPart2。「While our previous work (Part 1 (Qin et al , 2024)) explored the fundamental technical path to O1 replication, this study reveals how simple distillation from O1’s API, combined with supervised fine-tuning, can achieve superior performance on complex mathematical reasoning tasks.」はまぁいいとして「Notably, despite training only on mathematical problem-solving data, our models demonstrated strong generalization to open-ended QA tasks and became significantly less susceptible to sycophancy after fine-tuning.」は驚き。
  • リポジトリはGitHub – GAIR-NLP/O1-Journey: O1 Replication Journey: A Strategic Progress Report – Part I
  • TÜLU 3: Pushing Frontiers in Open Language Model Post-Training [94.1]
    我々は、完全にオープンな最先端の訓練後モデルであるT”ULU 3を紹介する。 T”ULU 3はLlama 3.1ベースモデルをベースにしており、Llama 3.1、Qwen 2.5、Mistral、さらにGPT-4o-mini、Claude 3.5-Haikuといったクローズドモデルにも勝っている。
    論文  参考訳(メタデータ)   (Fri, 22 Nov 2024 18:44:04 GMT)
  • リポジトリはGitHub – allenai/open-instruct

Beyond Examples: High-level Automated Reasoning Paradigm in In-Context Learning via MCTS

  • Beyond Examples: High-level Automated Reasoning Paradigm in In-Context Learning via MCTS [25.6]
    HiAR-ICLは特定の例から抽象的な思考パターンへとシフトする。 適切な思考カードと動的に一致する認知複雑性フレームワークを開発する。
    論文  参考訳(メタデータ)   (Wed, 27 Nov 2024 16:19:00 GMT)
  • 「(1) define atom reasoning actions, (2) construct thought cards via MCTS, (3) select reasoning patterns, and (4) solve and verify」からなるICLフレームワークの提案。(1)では「System Analysis (SA)」「One-Step Thought (OST)」「Chain-of-Thought (CoT)」「Divide and Conquer (DC)」「(a5) Self-Reflection and Refinement (SRR)」の5種類を定義。
  • 「HiAR-ICL, a High-level Automated Reasoning paradigm in ICL」という名称であるが、ICLというよりAgenticな動作に思える。もちろん性能は上がりそう。

OASIS: Open Agents Social Interaction Simulations on One Million Agents 

  • OASIS: Open Agents Social Interaction Simulations on One Million Agents [147.3]
    実世界のソーシャルメディアプラットフォームに基づくスケーラブルなソーシャルメディアシミュレータを提案する。 OASISは最大100万人のユーザをモデリングできる大規模なユーザシミュレーションをサポートする。 我々は、情報拡散、グループ分極、XプラットフォームとRedditプラットフォーム間の群れ効果など、様々な社会現象を再現する。
    論文  参考訳(メタデータ)   (Mon, 18 Nov 2024 13:57:35 GMT)
  • 大規模ユーザシミュレーション環境の提案。「Using OASIS, we have reproduced several well-known social phenomena and uncovered unique behaviors emerging from LLM-driven simulations.」とのことで、現実環境の再現を行うにもLLM based Agentsは有効そう。
  • リポジトリはGitHub – camel-ai/oasis: 🏝️ OASIS: Open Agents Social Interaction Simulations with One Million Agents

OpenScholar: Synthesizing Scientific Literature with Retrieval-augmented LMs 

  • OpenScholar: Synthesizing Scientific Literature with Retrieval-augmented LMs [151.8]
    我々は,4500万件のオープンアクセス論文と引用支援の回答を関連づけることで,科学的クエリに答える特殊な検索拡張LMであるOpenScholarを紹介した。 ScholarQABench では OpenScholar-8B が GPT-4o を5%、PaperQA2 を7% 上回っている。 OpenScholarのデータストア、レトリバー、セルフフィードバック推論ループも、既製のLMを改善している。
    論文  参考訳(メタデータ)   (Thu, 21 Nov 2024 15:07:42 GMT)
  • 科学に関するクエリに答えるためのシステムの提案。「OPENSCHOLAR consists of a specialized datastore, retrievers and LMs and iteratively improves responses using self-feedback inference with retrieval.」とやり切っている感がすごい。ベンチマークも構築しており、「OPENSCHOLAR using our trained 8B and GPT4o achieves a 51% and 70% win rate against human-generated answers.」とGPT-4o以上を主張。
  • Blog:Ai2 OpenScholar: Scientific literature synthesis with retrieval-augmented language models | Ai2 、Code:GitHub – AkariAsai/ScholarQABench: This repository contains ScholarQABench data and evaluation pipeline.、デモ:Ai2 OpenScholarなど多くのリソースが公開されている。

Constrained Human-AI Cooperation: An Inclusive Embodied Social Intelligence Challenge 

  • Constrained Human-AI Cooperation: An Inclusive Embodied Social Intelligence Challenge [47.7]
    CHAICは、インボディードエージェントの社会的知覚と協力をテストするために設計された包括的インボディード・ソーシャル・インテリジェンス・チャレンジである。 CHAICの目標は、身体的制約の下で活動している可能性がある人間を支援するために、自我中心の観察装置を備えたエンボディエージェントである。
    論文  参考訳(メタデータ)   (Mon, 04 Nov 2024 04:41:12 GMT)
  • 「In CHAIC, the goal is for an embodied agent equipped with egocentric observations to assist a human who may be operating under physical constraints—e g , unable to reach high places or confined to a wheelchair—in performing common household or outdoor tasks as efficiently as possible.」というタスク・ベンチマークの提案。このようなチャレンジが現実的になってきたことにAIの急速な進化を感じる。
  • リポジトリはGitHub – UMass-Foundation-Model/CHAIC: [NeurIPS D&B Track 2024] Source code for the paper “Constrained Human-AI Cooperation: An Inclusive Embodied Social Intelligence Challenge”