- From Intention To Implementation: Automating Biomedical Research via LLMs [32.0]
本稿では,バイオメディカル研究プロセス全体を合理化するために設計された,初のエンドツーエンド自動システムであるBioResearcherを紹介する。 複雑なタスクを論理的に関連するサブタスクに分解することで、BioResearcherは多分野要求と論理複雑性の課題を効果的に解決する。 BioResearcherは8つの未測定研究目標に対して平均実行成功率63.07%を達成している。
論文 参考訳(メタデータ) (Thu, 12 Dec 2024 16:35:05 GMT) - 「BioResearcher employs a modular multi-agent architecture, integrating specialized agents for search, literature processing, experimental design, and programming.」とのこと。
- 解釈が難しい数値とはいえ、達成率はかなり高い印象。。。
タグ: Autonomous Agent
The BrowserGym Ecosystem for Web Agent Research
- The BrowserGym Ecosystem for Web Agent Research [151.9]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。 大規模なマルチベンチマークWebエージェント実験を初めて実施する。 結果は、OpenAIとAnthropicの最新モデルの大きな相違点を浮き彫りにしている。
論文 参考訳(メタデータ) (Fri, 06 Dec 2024 23:43:59 GMT) - WEBエージェント開発のためのベンチマーク環境、あわせてベンチマークの統合とAgentLabも公開している。現在のリーダーボード(BrowserGym Leaderboard – a Hugging Face Space by ServiceNow)によると、Claude 3.5 Sonnetの性能の高さが目立っている。
- リポジトリはGitHub – ServiceNow/BrowserGym: 🌎💪 BrowserGym, a Gym environment for web task automation、GitHub – ServiceNow/AgentLab: AgentLab: An open-source framework for developing, testing, and benchmarking web agents on diverse tasks, designed for scalability and reproducibility.
Large Language Model-Brained GUI Agents: A Survey
- Large Language Model-Brained GUI Agents: A Survey [43.2]
マルチモーダルモデルはGUI自動化の新しい時代を支えてきた。 彼らは自然言語理解、コード生成、視覚処理において例外的な能力を示した。 これらのエージェントはパラダイムシフトを表しており、ユーザーは単純な会話コマンドで複雑なマルチステップタスクを実行できる。
論文 参考訳(メタデータ) (Wed, 27 Nov 2024 12:13:39 GMT) - GUI Agents with Foundation Models: A Comprehensive Survey – arXiv最新論文の紹介ににたサーベイだが、こちらはMicrosoftの研究者が筆頭著者。
Model Context Protocol (MCP), QwQ, OLMo 2
先週も様々なニュースがあったが、注目はAnthropicのModel Context Protocolである。 Introducing the Model Context Protocol \ Anthropic、Introduction – Model Context Protocol
ザックリとはLLMと外部データやツールを統合するためのプロトコルである。外部ツール利用やメモリの拡張利用などを前提としたLLMを構築する場合、この手の標準があるかないかは重要。MCPがデファクトスタンダードとなれるか興味津々。
公開モデル関連では極めて性能の高いQwen with Questions(QwQ)、以前取り上げたDolmaとOLMo – arXiv最新論文の紹介のver 2であるOLMo 2に要注目である。O1 Replication JurneyやTULU3もだが、どのような手法、アプローチで性能が上がるのかなどをオープンにした取り組みの価値は高い。
- QwQ: Reflect Deeply on the Boundaries of the Unknown | Qwen
- 「QwQ-32B-Preview is an experimental research model developed by the Qwen Team, focused on advancing AI reasoning capabilities.」という公開モデル。Open AI o1と比較しても性能が高い。o1に刺激を受けた動きは様々行われていて本当に競争が激しい。
- リポジトリはQwen/QwQ-32B-Preview · Hugging Face
- デモはQwQ-32B-Preview – a Hugging Face Space by Qwen
- OLMo 2: The best fully open language model to date | Ai2
- 構築方法、データ、モデルが公開されているモデルであり、性能は最先端に近い。
- リポジトリはOLMo 2 – a allenai Collection
- デモはAi2 Playground
- O1 Replication Journey — Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson? [30.9]
本稿では,OpenAIのO1モデル機能を複製する現在のアプローチについて,批判的な考察を行う。 O1のAPIからの単純な蒸留と教師付き微調整を組み合わせることで、複雑な数学的推論タスクにおいて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (Mon, 25 Nov 2024 15:31:27 GMT) - OpenAI o1に関する研究、Fugu-MT 論文翻訳(概要): O1 Replication Journey: A Strategic Progress Report — Part 1からのPart2。「While our previous work (Part 1 (Qin et al , 2024)) explored the fundamental technical path to O1 replication, this study reveals how simple distillation from O1’s API, combined with supervised fine-tuning, can achieve superior performance on complex mathematical reasoning tasks.」はまぁいいとして「Notably, despite training only on mathematical problem-solving data, our models demonstrated strong generalization to open-ended QA tasks and became significantly less susceptible to sycophancy after fine-tuning.」は驚き。
- リポジトリはGitHub – GAIR-NLP/O1-Journey: O1 Replication Journey: A Strategic Progress Report – Part I
- TÜLU 3: Pushing Frontiers in Open Language Model Post-Training [94.1]
我々は、完全にオープンな最先端の訓練後モデルであるT”ULU 3を紹介する。 T”ULU 3はLlama 3.1ベースモデルをベースにしており、Llama 3.1、Qwen 2.5、Mistral、さらにGPT-4o-mini、Claude 3.5-Haikuといったクローズドモデルにも勝っている。
論文 参考訳(メタデータ) (Fri, 22 Nov 2024 18:44:04 GMT) - リポジトリはGitHub – allenai/open-instruct
Beyond Examples: High-level Automated Reasoning Paradigm in In-Context Learning via MCTS
- Beyond Examples: High-level Automated Reasoning Paradigm in In-Context Learning via MCTS [25.6]
HiAR-ICLは特定の例から抽象的な思考パターンへとシフトする。 適切な思考カードと動的に一致する認知複雑性フレームワークを開発する。
論文 参考訳(メタデータ) (Wed, 27 Nov 2024 16:19:00 GMT) - 「(1) define atom reasoning actions, (2) construct thought cards via MCTS, (3) select reasoning patterns, and (4) solve and verify」からなるICLフレームワークの提案。(1)では「System Analysis (SA)」「One-Step Thought (OST)」「Chain-of-Thought (CoT)」「Divide and Conquer (DC)」「(a5) Self-Reflection and Refinement (SRR)」の5種類を定義。
- 「HiAR-ICL, a High-level Automated Reasoning paradigm in ICL」という名称であるが、ICLというよりAgenticな動作に思える。もちろん性能は上がりそう。
OASIS: Open Agents Social Interaction Simulations on One Million Agents
- OASIS: Open Agents Social Interaction Simulations on One Million Agents [147.3]
実世界のソーシャルメディアプラットフォームに基づくスケーラブルなソーシャルメディアシミュレータを提案する。 OASISは最大100万人のユーザをモデリングできる大規模なユーザシミュレーションをサポートする。 我々は、情報拡散、グループ分極、XプラットフォームとRedditプラットフォーム間の群れ効果など、様々な社会現象を再現する。
論文 参考訳(メタデータ) (Mon, 18 Nov 2024 13:57:35 GMT) - 大規模ユーザシミュレーション環境の提案。「Using OASIS, we have reproduced several well-known social phenomena and uncovered unique behaviors emerging from LLM-driven simulations.」とのことで、現実環境の再現を行うにもLLM based Agentsは有効そう。
- リポジトリはGitHub – camel-ai/oasis: 🏝️ OASIS: Open Agents Social Interaction Simulations with One Million Agents
OpenScholar: Synthesizing Scientific Literature with Retrieval-augmented LMs
- OpenScholar: Synthesizing Scientific Literature with Retrieval-augmented LMs [151.8]
我々は,4500万件のオープンアクセス論文と引用支援の回答を関連づけることで,科学的クエリに答える特殊な検索拡張LMであるOpenScholarを紹介した。 ScholarQABench では OpenScholar-8B が GPT-4o を5%、PaperQA2 を7% 上回っている。 OpenScholarのデータストア、レトリバー、セルフフィードバック推論ループも、既製のLMを改善している。
論文 参考訳(メタデータ) (Thu, 21 Nov 2024 15:07:42 GMT) - 科学に関するクエリに答えるためのシステムの提案。「OPENSCHOLAR consists of a specialized datastore, retrievers and LMs and iteratively improves responses using self-feedback inference with retrieval.」とやり切っている感がすごい。ベンチマークも構築しており、「OPENSCHOLAR using our trained 8B and GPT4o achieves a 51% and 70% win rate against human-generated answers.」とGPT-4o以上を主張。
- Blog:Ai2 OpenScholar: Scientific literature synthesis with retrieval-augmented language models | Ai2 、Code:GitHub – AkariAsai/ScholarQABench: This repository contains ScholarQABench data and evaluation pipeline.、デモ:Ai2 OpenScholarなど多くのリソースが公開されている。
Constrained Human-AI Cooperation: An Inclusive Embodied Social Intelligence Challenge
- Constrained Human-AI Cooperation: An Inclusive Embodied Social Intelligence Challenge [47.7]
CHAICは、インボディードエージェントの社会的知覚と協力をテストするために設計された包括的インボディード・ソーシャル・インテリジェンス・チャレンジである。 CHAICの目標は、身体的制約の下で活動している可能性がある人間を支援するために、自我中心の観察装置を備えたエンボディエージェントである。
論文 参考訳(メタデータ) (Mon, 04 Nov 2024 04:41:12 GMT) - 「In CHAIC, the goal is for an embodied agent equipped with egocentric observations to assist a human who may be operating under physical constraints—e g , unable to reach high places or confined to a wheelchair—in performing common household or outdoor tasks as efficiently as possible.」というタスク・ベンチマークの提案。このようなチャレンジが現実的になってきたことにAIの急速な進化を感じる。
- リポジトリはGitHub – UMass-Foundation-Model/CHAIC: [NeurIPS D&B Track 2024] Source code for the paper “Constrained Human-AI Cooperation: An Inclusive Embodied Social Intelligence Challenge”
WorkflowLLM
- WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models [105.5]
ワークフローオーケストレーションにおける大規模言語モデルの能力を高めるための,データ中心のフレームワークであるLLMを提案する。 最初は106,763のサンプルで大規模な微調整Benchを構築し、28のカテゴリにわたる83のアプリケーションから1,503のAPIをカバーしている。 LlamaLlamaは複雑なAPIをオーケストレーションする能力を示しながら、優れた一般化性能を実現している。
論文 参考訳(メタデータ) (Fri, 08 Nov 2024 09:58:02 GMT) - エージェント開発において重要となるワークフロー生成に関するベンチマークの提案とLLMの構築。
- (1) Data Collection、(2) Query Expansion、(3) Workflow Generation、合成データを用いたWorkflowBenchの作成、fine-tuneによる WorkflowLlamaの構築と合成データを併用する一般的な手順ではあるが、GPT-4o w/ICLを完全にoutperformしているのが興味深い。
- リポジトリはGitHub – OpenBMB/WorkflowLLM
GUI Agents with Foundation Models: A Comprehensive Survey
- GUI Agents with Foundation Models: A Comprehensive Survey [53.0]
この調査は(M)LLMベースのGUIエージェントに関する最近の研究を集約する。 データ、フレームワーク、アプリケーションにおける重要なイノベーションを強調します。 本稿では, (M)LLM ベースの GUI エージェントの分野におけるさらなる発展を期待する。
論文 参考訳(メタデータ) (Thu, 07 Nov 2024 17:28:10 GMT) - MLLMベースのGUIエージェントのサーベイ
- 研究が進んでいると思ったらサーベイが発表されるスピード感がこの分野の現状を表していると思う。