- PlanGEN: A Multi-Agent Framework for Generating Planning and Reasoning Trajectories for Complex Problem Solving [89.6]
制約,検証,選択という3つの重要な要素を持つモデルに依存しない,スケーラブルなエージェントフレームワークであるPlanGENを提案する。 具体的には、推論時間アルゴリズムの性能を向上させるために、制約誘導反復検証を提案する。
論文 参考訳(メタデータ) (Sat, 22 Feb 2025 06:21:56 GMT) - 「PlanGEN comprises three specialized LLM agents: a constraint agent, a verification agent, and a selection agent.」というマルチエージェントフレームワーク。「Further, we introduced a Mixture of Algorithms, an iterative framework that integrates the selection agent (Figure 1) to dynamically choose the best algorithm.」とのことだが、MoAのAがAgentのものと紛らわしい。。
- Gemini-1.5-Pro, Gemini-2.0-Flash, GPT-4o、それぞれ単一で使うよりも性能が向上しているようでアンサンブル的な効果は出ている。
カテゴリー: arXiv
Time Travel: A Comprehensive Benchmark to Evaluate LMMs on Historical and Cultural Artifacts
- Time Travel: A Comprehensive Benchmark to Evaluate LMMs on Historical and Cultural Artifacts [65.9]
TimeTravelは、10つの主要な歴史的地域にわたる266の異なる文化にまたがる10,250のエキスパート認定サンプルのベンチマークである。 TimeTravelは、原稿、アートワーク、碑文、考古学的発見のAIによる分析のために設計されている。 我々は、TimeTravelで現代のAIモデルを評価し、その強みを強調し、改善すべき領域を特定する。
論文 参考訳(メタデータ) (Thu, 20 Feb 2025 18:59:51 GMT) - 「By integrating AI with historical research, TimeTravel fosters AI-powered tools for historians, archaeologists, researchers, and cultural tourists to extract valuable insights while ensuring technology contributes meaningfully to historical discovery and cultural heritage preservation.」という変わったベンチマークの提案。日本の土偶や勾玉も含まれている。
- プロジェクトサイトはTimeTravel: A Comprehensive Benchmark to Evaluate LMMs on Historical and Cultural Artifacts
Continuous Diffusion Model for Language Modeling, Energy-Based Diffusion Language Models for Text Generation
- Continuous Diffusion Model for Language Modeling [57.4]
離散データに対する既存の連続拡散モデルは、離散的アプローチと比較して性能が限られている。 本稿では,下層の分類分布の幾何学を組み込んだ言語モデリングのための連続拡散モデルを提案する。
論文 参考訳(メタデータ) (Mon, 17 Feb 2025 08:54:29 GMT) - ARモデルに匹敵するRiemannian Diffusion Language Model (RDLM),の提案。
- リポジトリはhttps://github.com/harryjo97/RDLM
- 画像ではDiffusion Model → Autoregressive modelという流れもありつつ、言語ではDiffusion Modelを使うInception Labs, Mercury Coderが話題になっているのが面白い。
- Energy-Based Diffusion Language Models for Text Generation [126.2]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。 我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (Fri, 28 Feb 2025 08:41:03 GMT) - こちらも「Through experiments on both small and large language modeling benchmarks, EDLM demonstrates state-of-the-art performance among diffusion models and approaches the quality of autoregressive models, while offering significant sampling speedup.」を主張。
Claude 3.7, GPT-4.5, Phi-4, Selene
先週も大きなニュースが多く、AnthropicのClaude 3.7 sonnet、OpenAIのGPT-4.5などフラグシップと呼べるモデルの発表が相次いだ。
Claude 3.7はLLM&LRMというようなモデルでコード生成で高い性能を発揮している。Claude 3.7 Sonnet and Claude Code \ Anthropic
GPT-4.5は巨大・高性能なLLMという印象GPT-4.5 が登場 | OpenAI。LRMでは解きにくい領域ではとても有効そう。ベンチマーク個別では同じLLMのDeepseek V3に負けているものがあり(GitHub – deepseek-ai/DeepSeek-V3のAIME 2024やSWE Verified)、OpenAI一強時代の終わりを感じさせる結果になっている。
このような中、MicrosoftのPhi-4シリーズでも新たなモデルが公開されているWelcome to the new Phi-4 models – Microsoft Phi-4-mini & Phi-4-multimodal。小型モデルでも十分な性能が出ているように見える。
Frontier AI needs frontier evaluators. Meet Selene.など、強力なevaluatorなどLLMやLRMを補完する動きも興味深い。
LLM, LRM, SLMやチューニング、ハイブリッド構成など様々なアプローチがあり、モデルの選択肢も増え、何を選択していくべきか悩む時代になったのかなという印象。
- Atla Selene Mini: A General Purpose Evaluation Model [2.9]
我々はSLMJ(Small-as-a-judge)の最先端の小型言語であるAtla Selene Miniを紹介した。 Selene Miniは、全体的なパフォーマンスにおいて最高のSLMJとGPT-4o-miniより優れた汎用評価器である。 RewardBenchで最も高い8B生成モデルである。
論文 参考訳(メタデータ) (Mon, 27 Jan 2025 15:09:08 GMT) - 上述のEvaluaterチームの論文
- Phi-4-Mini Technical Report: Compact yet Powerful MultimodalLanguage Models via Mixture-of-LoRAs
Phi-4MiniとPhi-4-Multimodal、コンパクトで高機能な言語とマルチモーダルモデルを紹介します。Phi-4-Miniは、高品質なウェブおよび合成データに基づいて訓練された3.8ビリオンパラメータ言語モデルである。Phi-4-Multimodalは、テキスト、視覚、音声/音声入力モダリティを単一のモデルに統合するマルチモーダルモデルである。 - phi_4_mm.tech_report.02252025.pdf · microsoft/Phi-4-multimodal-instruct at main
- OpenAI GPT-4.5 System Card
GPT-4.5は事前トレーニングをさらにスケールし、強力なSTEM焦点推論モデルよりも汎用的に設計されている。幅広い知識ベース、ユーザーの意図とのより強固な連携、感情的知性の向上は、執筆、プログラミング、実用的な問題解決といったタスクに適している。 - OpenAI GPT-4.5 System Card | OpenAI
From Selection to Generation: A Survey of LLM-based Active Learning
- From Selection to Generation: A Survey of LLM-based Active Learning [153.8]
大きな言語モデル(LLM)は、全く新しいデータインスタンスを生成し、よりコスト効率の良いアノテーションを提供するために使われています。 本調査は,LLMに基づくAL手法の直感的な理解を目指して,研究者や実践者の最新のリソースとして機能することを目的としている。
論文 参考訳(メタデータ) (Mon, 17 Feb 2025 12:58:17 GMT) - LLM時代のアクティブラーニング。「In this survey, we present an intuitive taxonomy of LLM-based Active Learning, detailing how LLMs can act as sample selectors, data generators, and annotators within the AL loop.」という整理。
The Law of Knowledge Overshadowing: Towards Understanding, Predicting, and Preventing LLM Hallucination
- The Law of Knowledge Overshadowing: Towards Understanding, Predicting, and Preventing LLM Hallucination [85.2]
本稿では,知識のシェードイングをモデル化することで,事実の幻覚を定量化する新しい枠組みを提案する。 オーバシャドウ(27.9%)、MemoTrap(13.1%)、NQ-Swap(18.3%)のモデル事実性を顕著に向上させる。
論文 参考訳(メタデータ) (Sat, 22 Feb 2025 08:36:06 GMT) - ハルシネーションの定量化とハルシネーションを抑えるデコード戦略「Contrastive Decoding to Amplify Overshadowed Knowledge (CoDA)」の提案。
- 「Our work identify knowledge overshadowing as a contributional cause of LLMs hallucination, where dominant knowledge suppresses less frequent facts, leading to fact distortions.」は直観・経験的に違和感はなく、実験結果も面白い。
FactReasoner: A Probabilistic Approach to Long-Form Factuality Assessment for Large Language Models
- FactReasoner: A Probabilistic Approach to Long-Form Factuality Assessment for Large Language Models [59.2]
本稿では,確率論的推論に依拠した新たな事実性評価器FactReasonerを提案する。 ラベル付きおよびラベルなしのベンチマークデータセットの実験は、FactReasonerが最先端のプロンプトベースのアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (Tue, 25 Feb 2025 19:01:48 GMT) - 一般的な「FactReasoner proceeds in a manner similar to existing prompt-based assessors by decomposing the response into atomic units and retrieving contexts relevant to them from an external knowledge source.」ではなく、「FactReasoner evaluates the factuality of the atoms by probabilistic reasoning over a graphical model that represents the logical relationships between the textual utterances corresponding to the atoms and contexts.」というアプローチ。
SurveyX: Academic Survey Automation via Large Language Models
- SurveyX: Academic Survey Automation via Large Language Models [23.1]
SurveyXは、自動サーベイ生成のための効率的で組織化されたシステムである。 調査構成過程を, 準備と生成の2段階に分割する。 これは調査組成物の有効性を著しく向上させる。
論文 参考訳(メタデータ) (Thu, 20 Feb 2025 17:59:45 GMT) - 自動的なサーベイシステム「Inspired by human writing processes, we propose SurveyX, an efficient and organized system for automated survey generation that decomposes the survey composing process into two phases: the Preparation and Generation phases.」の構築、凝ったパイプライン構成。
- プロジェクトサイトはSurveyX-Automated Survey Generation
MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency
- MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency [63.2]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。 我々は,LMMのCoT推論性能を評価する特別ベンチマークであるMME-CoTを紹介する。 我々は最先端のLMMの詳細な分析を行い、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (Thu, 13 Feb 2025 18:59:46 GMT) - 「we introduce MMECoT, a specialized benchmark evaluating the CoT reasoning performance of LMMs, spanning six domains: math, science, OCR, logic, space-time, and general scenes.」というベンチマーク
- プロジェクトサイトはMME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency、LeaderboardトップがKimi k1.5でGPT-4oを超えているという驚きの結果。
Logical Reasoning in Large Language Models: A Survey
- Logical Reasoning in Large Language Models: A Survey [17.1]
大規模言語モデル(LLM)における論理的推論の最近の進歩を合成する。 LLMにおける論理的推論の範囲、理論的基礎、および推論の習熟度を評価するために使用されるベンチマークについて概説する。 このレビューは、AIシステムにおける論理的推論を強化するためのさらなる調査の必要性を強調し、今後の方向性を結論付けている。
論文 参考訳(メタデータ) (Thu, 13 Feb 2025 09:19:14 GMT) - 「This survey synthesizes the rapid advancements and persistent challenges in logical reasoning for large language models (LLMs).」と、急速に発展しているLLMにおける論理的推論に関するサーベイ