コンテンツへスキップ
- Auto Arena of LLMs: Automating LLM Evaluations with Agent Peer-battles and Committee Discussions [77.8]
LLM エージェントによる評価プロセス全体を自動化した LLM の自動アリーナを提案する。 最新のLLM17実験において,オートアリーナは人間の嗜好と最も高い相関関係を示した。
論文 参考訳(メタデータ) (Thu, 30 May 2024 17:19:19 GMT)
- LLMの評価手法の提案、「By using LLM agents to generate questions, employing LLM candidates in peer battles, and evaluating responses using LLM committee discussions, Auto-Arena produces less-contaminated, robust, and trustworthy evaluation results.」というエージェント的手法。自動評価ができるということは自動改善もできそうな気がするが、合議制で良いデータを作りfine tuningをしていくとどのくらいまで性能が上がるんだろうか。
- プロジェクトサイト・リーダーボードはEmbedded Streamlit App (auto-arena.github.io)、英語と中国語でランキングがかなり異なるのが面白い。
- Agent Design Pattern Catalogue: A Collection of Architectural Patterns for Foundation Model based Agents [22.9]
ファウンデーションモデルに対応した生成人工知能はエージェントの開発と実装を容易にする。 本稿では、コンテキスト、力、トレードオフを分析した16のアーキテクチャパターンからなるパターンカタログを提案する。
論文 参考訳(メタデータ) (Thu, 16 May 2024 23:24:48 GMT)
- 生成AIを用いたエージェント構築のためのデザインパターンの紹介
- 急速に発展している感がある
- Agent Planning with World Knowledge Model [88.5]
エージェント計画を容易にするためにパラメトリック世界知識モデル(WKM)を導入する。 我々はWKMを開発し、グローバルな計画と動的状態の知識を導くために、事前のタスク知識を提供する。 我々は、我々のWKMが視覚障害者の試行錯誤と幻覚的行動の問題を効果的に緩和できることを示すために分析を行った。
論文 参考訳(メタデータ) (Thu, 23 May 2024 06:03:19 GMT)
- World Knowledge Modelが計画に有効とのこと。それ自体は納得的でWKMを得るために「Specifically, we first steer the agent model to synthesize task knowledge from the comparison between expert and sampled trajectories. Then we prompt it to summarize state knowledge for each planning step from expert trajectories and combine the previous and next actions to build a state knowledge base. Lastly, we integrate the generated knowledge into expert trajectories and train a WKM.」という手順をとる。この手の設計が重要になっている。
- リポジトリはhttps://github.com/zjunlp/WKMとのことだが、現時点では404
- LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.4]
本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。 本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。 法発見と分子設計における枠組みの有効性を実証するための実験を行った。
論文 参考訳(メタデータ) (Thu, 16 May 2024 03:04:10 GMT)
- 物理的シミュレーションとLLMを組みあわせ科学的発見をおこなうためのフレームワークの提案。「In conclution, we present Scientific Generative Agent, a bilevel optimization framework: LLMs serve as knowledgeable and adaptable thinkers, formulating scientific solutions like physics equations or molecule structures; concurrently, simulations operate as platforms for experimentation, offering observational feedback and optimizing continuous components like physical parameters.」と、LLMが人間的役割を担っている。
- SORAのような(物理・世界シミュレーターとしての)動画生成モデルと組み合わさると自己完結的に深い思考ができるようになるのだろうか。そこまで行くとAGIの世界になりそうな気がする。。
- Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond [101.2]
一般世界モデルは、人工知能(AGI)の実現への決定的な道のりを表現している 本調査では,世界モデルの最新動向を包括的に調査する。 我々は,世界モデルの課題と限界について検討し,今後の方向性について考察する。
論文 参考訳(メタデータ) (Mon, 06 May 2024 14:37:07 GMT)
- SoraがWorld simulatorとして機能しうるかは賛否が分かれているが、より広く(自動運転や自律エージェントなど)World simulatorになりうる生成系AIのサーベイ。「we expect world models to possess the ability of counterfactual reasoning, whereby outcomes are inferred through rational imagining.」はその通りで現時点ではまだ困難という印象を受けたが、実現できる未来はすぐだったりするのだろうか。
- リポジトリも参考になる GitHub – GigaAI-research/General-World-Models-Survey
- Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.8]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。 モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。 実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (Thu, 18 Apr 2024 15:21:34 GMT)
- Monte Carlo Tree Search + LLM、「we use the term option as a search node and propose option-level MCTS where each option represents a sequence of tokens, which can range from multiple tokens to several sentences.」というのが興味深く、性能向上にも寄与
- USimAgent: Large Language Models for Simulating Search Users [33.2]
大規模言語モデル(LLM)は、人間レベルの知能をシミュレートする可能性を示している。 本稿では,LLMに基づくユーザ検索行動シミュレータUSimAgentを紹介する。 提案するシミュレータは,検索中のユーザのクエリ,クリック,停止をシミュレートし,完全な検索セッションを生成することができる。
論文 参考訳(メタデータ) (Thu, 14 Mar 2024 07:40:54 GMT)
- 検索を模倣するAgentの提案
- ぼちぼち検索エンジンをそのまま利用するよりも便利になりつつある気がする、、