LLMs-as-Judges: A Comprehensive Survey on LLM-based Evaluation Methods

TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks

  • TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks [52.5]
    私たちは小さなソフトウェア企業環境を模倣したデータによる自己完結型環境を構築します。 最も競争力のあるエージェントでは、タスクの24%が自律的に完了できます。 これは、LMエージェントによるタスク自動化に関するニュアンスな絵を描く。
    論文  参考訳(メタデータ)   (Wed, 18 Dec 2024 18:55:40 GMT)
  • 「TheAgentCompany measures the progress of these LLM agents’ performance on performing real-world professional tasks, by providing an extensible benchmark for evaluating AI agents that interact with the world in similar ways to those of a digital worker: by browsing the Web, writing code, running programs, and communicating with other coworkers.」というベンチマーク。現状、Claude 3.5 Sonnetの性能が高い結果になっているが、o1やo3での結果が気になるところ。
  • プロジェクトサイトはTheAgentCompany、リーダーボードはTheAgentCompany

AnySat: An Earth Observation Model for Any Resolutions, Scales, and Modalities 

  • AnySat: An Earth Observation Model for Any Resolutions, Scales, and Modalities [5.8]
    本稿では,JEPAと分解能適応型空間エンコーダに基づくマルチモーダルモデルであるAnySatを提案する。 この統一アプローチの利点を示すために、5ドルのマルチモーダルデータセットのコレクションであるGeoPlexをコンパイルする。 次に、これらの多様なデータセット上で、単一の強力なモデルを同時にトレーニングします。
    論文  参考訳(メタデータ)   (Wed, 18 Dec 2024 18:11:53 GMT)
  • 様々な Earth observationデータを統合的に扱える基盤モデルの提案。「We have presented AnySat, a versatile architecture designed to address the diversity of EO data in terms of resolutions, scales, and modalities.」ということで効果も検証されている。
  • リポジトリはGitHub – gastruc/AnySat

How to Synthesize Text Data without Model Collapse?

  • How to Synthesize Text Data without Model Collapse? [37.2]
    合成データのモデル崩壊は、自己生成データに対する反復的なトレーニングが徐々に性能を低下させることを示している。 半合成データを得るために,人為的データに対するトークン編集を提案する。
    論文  参考訳(メタデータ)   (Thu, 19 Dec 2024 09:43:39 GMT)
  • 合成データを用いたモデル構築で、モデル崩壊の分析とそれを抑える手法の提案。

SafeWorld: Geo-Diverse Safety Alignment

  • SafeWorld: Geo-Diverse Safety Alignment [107.8]
    大規模言語モデル(LLM)を評価するために特別に設計された新しいベンチマークであるSafeWorldを紹介する。 SafeWorldには2,342のユーザクエリが含まれており、それぞれ50か国と493のリージョン/ラストから、高品質で人間認証された文化規範と法的ポリシーを基礎としている。 トレーニングされたSafeWorldLMは、GPT-4oを含む競合モデルの3つの評価次元を大きなマージンで上回ります。
    論文  参考訳(メタデータ)   (Mon, 09 Dec 2024 13:31:46 GMT)
  • 安全性評価のためのベンチマーク、「SAFEWORLD encompasses 2,342 test user queries, each grounded in high-quality, human-verified cultural norms and legal policies from 50 countries and 493 regions/races.」と文化的側面に注意が払われている。
  • リポジトリはGitHub – PlusLabNLP/SafeWorld

Think&Cite、RAG-Star

  • Think&Cite: Improving Attributed Text Generation with Self-Guided Tree Search and Progress Reward Modeling [64.0]
    大型言語モデル(LLM)は幻覚を起こし、事実的に誤った情報を生み出す傾向にある。 我々はThink&Citeと呼ばれる新しいフレームワークを提案し、検索と統合された多段階推論問題として属性付きテキスト生成を定式化する。
    論文  参考訳(メタデータ)   (Thu, 19 Dec 2024 13:55:48 GMT)
  • エビデンス付きのテキスト生成のためSelf-Guided Monte Carlo Tree Search (SG-MCTS)を提案。モンテカルロツリーを使って性能を上げようという取り組みは多いが「To the best of our knowledge, we are the first to apply tree search algorithms to the task of attributed text generation.」はそうかもしれない。
  • RAGなどを上回る性能を達成とのこと。有効な手法に思える。
  • RAG-Star: Enhancing Deliberative Reasoning with Retrieval Augmented Verification and Refinement [85.1]
    既存の大規模言語モデル(LLM)は、例外的な問題解決能力を示すが、複雑な推論タスクに苦労する可能性がある。 検索情報を統合した新しいRAG手法である RAG-Star を提案する。 Llama-3.1-8B-Instruct と GPT-4o を併用した実験により,RAG-Star は従来のRAG と推理法を著しく上回っていることが示された。
    論文  参考訳(メタデータ)   (Tue, 17 Dec 2024 13:05:36 GMT)
  • 「RAG-Star employed Monte Carlo Tree Search to search intermediate sub-queries and corresponding answers. Moreover, RAG-Star introduced retrieval-augmented verification to evaluate the plausibility and consistency of the planned subqueries and answers based on a query-aware and an answer-aware reward.」とこちらはRAGにMonte Carlo Tree Searchを組み合わせるタイプの報告

Knowledge Injection via Prompt Distillation 

  • Knowledge Injection via Prompt Distillation [48.7]
    本稿では,新しい知識を学習するための新しい微調整手法を提案し,RAGの性能に到達できることを示す。 提案手法は, 急速蒸留と呼ばれる自己蒸留法に基づいている。
    論文  参考訳(メタデータ)   (Thu, 19 Dec 2024 15:44:01 GMT)
  • LLMにない知識を用いる場合はRAGを利用することが多いが、それと同様の性能を発揮できるfine tuning手法、 prompt distillation の提案。RAGと組み合わせることも可能とのこと。

FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models

  • FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models [112.9]
    現在の方法では、ソース画像からアイデンティティとスタイルを抽出しようとする。 スタイル」は、テクスチャ、色、芸術的要素を含む広い概念であるが、照明や動力学など他の重要な要素をカバーしていない。 画像の美学を特定の視覚属性に分解するより効果的なアプローチを定式化し、ユーザーは異なる画像から照明、テクスチャ、ダイナミックスなどの特徴を適用できる。
    論文  参考訳(メタデータ)   (Tue, 10 Dec 2024 17:02:58 GMT)
  • 視覚的な属性(color, lighting, focus and depth of field, artistic stroke, dynamics, rhythm, designのような)を分類したデータセットfine-grained visual attributes dataset (FiVA)の提案と、画像から視覚属性の抽出・適用を行う fine-grained visual attribute adaptation framework (FiVA-Adapter)の提案。
  • プロジェクトサイトはFiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models

A Survey on LLM Inference-Time Self-Improvement

OpenAI o3, Gemini 2.0 Flash Thinking, Genesis, Modern BERT

先週の大きなニュースはOpenAI o3でFrontierMath、ARC-AGI、SWE-benchなど難しいベンチマークで驚異的な性能を出している。12 Days of OpenAIは興味深い発表が多く、一方でAGIと言い切れるほどのものはなく、また、動画生成など分野によっては競合(GitHub – Tencent/Tencent-Hunyuan-Largeなど)の猛追も印象的だった。

12 Days of OpenAI | OpenAI
OpenAIの「12 Days」まとめ – ITmedia NEWS

GoogleもGemini 2.0 Flash Thinkingを発表(Gemini 2.0 Flash の思考モード  |  Gemini API  |  Google AI for Developers)、OpenAI o3の性能にも迫っていきそうな雰囲気を感じる。OSS界隈でもo3を目指す動きが盛り上がっていて期待できそう。

AGIを目指すとすると、推論(思考)性能はタスクによるとはいえかなり汎用的に人間(以上)レベルを達成できている感じで、今後は別機能(記憶とか自己改善とかEmbodiedとか)のインテグレーションがカギになりそう。Embodied AIに関連して先週はシミュレーション環境であるGenesisも話題になっていた。

華々しい発表ではなかったかもしれないがFinally, a Replacement for BERT: Introducing ModernBERTも重要な成果。decoder only全盛という感じではあるが、実務タスクを解く場合、BERT系列の選択肢は持っておきたいところ。