Claude 3.7, GPT-4.5, Phi-4, Selene

先週も大きなニュースが多く、AnthropicのClaude 3.7 sonnet、OpenAIのGPT-4.5などフラグシップと呼べるモデルの発表が相次いだ。

Claude 3.7はLLM&LRMというようなモデルでコード生成で高い性能を発揮している。Claude 3.7 Sonnet and Claude Code \ Anthropic

GPT-4.5は巨大・高性能なLLMという印象GPT-4.5 が登場 | OpenAI。LRMでは解きにくい領域ではとても有効そう。ベンチマーク個別では同じLLMのDeepseek V3に負けているものがあり(GitHub – deepseek-ai/DeepSeek-V3のAIME 2024やSWE Verified)、OpenAI一強時代の終わりを感じさせる結果になっている。

このような中、MicrosoftのPhi-4シリーズでも新たなモデルが公開されているWelcome to the new Phi-4 models – Microsoft Phi-4-mini & Phi-4-multimodal。小型モデルでも十分な性能が出ているように見える。

Frontier AI needs frontier evaluators. Meet Selene.など、強力なevaluatorなどLLMやLRMを補完する動きも興味深い。

LLM, LRM, SLMやチューニング、ハイブリッド構成など様々なアプローチがあり、モデルの選択肢も増え、何を選択していくべきか悩む時代になったのかなという印象。

  • Atla Selene Mini: A General Purpose Evaluation Model [2.9]
    我々はSLMJ(Small-as-a-judge)の最先端の小型言語であるAtla Selene Miniを紹介した。 Selene Miniは、全体的なパフォーマンスにおいて最高のSLMJとGPT-4o-miniより優れた汎用評価器である。 RewardBenchで最も高い8B生成モデルである。
    論文  参考訳(メタデータ)   (Mon, 27 Jan 2025 15:09:08 GMT)
  • 上述のEvaluaterチームの論文
  • Phi-4-Mini Technical Report: Compact yet Powerful MultimodalLanguage Models via Mixture-of-LoRAs
    Phi-4MiniとPhi-4-Multimodal、コンパクトで高機能な言語とマルチモーダルモデルを紹介します。Phi-4-Miniは、高品質なウェブおよび合成データに基づいて訓練された3.8ビリオンパラメータ言語モデルである。Phi-4-Multimodalは、テキスト、視覚、音声/音声入力モダリティを単一のモデルに統合するマルチモーダルモデルである。
  • phi_4_mm.tech_report.02252025.pdf · microsoft/Phi-4-multimodal-instruct at main
  • OpenAI GPT-4.5 System Card
    GPT-4.5は事前トレーニングをさらにスケールし、強力なSTEM焦点推論モデルよりも汎用的に設計されている。幅広い知識ベース、ユーザーの意図とのより強固な連携、感情的知性の向上は、執筆、プログラミング、実用的な問題解決といったタスクに適している。
  • OpenAI GPT-4.5 System Card | OpenAI

From Selection to Generation: A Survey of LLM-based Active Learning

  • From Selection to Generation: A Survey of LLM-based Active Learning [153.8]
    大きな言語モデル(LLM)は、全く新しいデータインスタンスを生成し、よりコスト効率の良いアノテーションを提供するために使われています。 本調査は,LLMに基づくAL手法の直感的な理解を目指して,研究者や実践者の最新のリソースとして機能することを目的としている。
    論文  参考訳(メタデータ)   (Mon, 17 Feb 2025 12:58:17 GMT)
  • LLM時代のアクティブラーニング。「In this survey, we present an intuitive taxonomy of LLM-based Active Learning, detailing how LLMs can act as sample selectors, data generators, and annotators within the AL loop.」という整理。

The Law of Knowledge Overshadowing: Towards Understanding, Predicting, and Preventing LLM Hallucination

  • The Law of Knowledge Overshadowing: Towards Understanding, Predicting, and Preventing LLM Hallucination [85.2]
    本稿では,知識のシェードイングをモデル化することで,事実の幻覚を定量化する新しい枠組みを提案する。 オーバシャドウ(27.9%)、MemoTrap(13.1%)、NQ-Swap(18.3%)のモデル事実性を顕著に向上させる。
    論文  参考訳(メタデータ)   (Sat, 22 Feb 2025 08:36:06 GMT)
  • ハルシネーションの定量化とハルシネーションを抑えるデコード戦略「Contrastive Decoding to Amplify Overshadowed Knowledge (CoDA)」の提案。
  • 「Our work identify knowledge overshadowing as a contributional cause of LLMs hallucination, where dominant knowledge suppresses less frequent facts, leading to fact distortions.」は直観・経験的に違和感はなく、実験結果も面白い。

FactReasoner: A Probabilistic Approach to Long-Form Factuality Assessment for Large Language Models 

  • FactReasoner: A Probabilistic Approach to Long-Form Factuality Assessment for Large Language Models [59.2]
    本稿では,確率論的推論に依拠した新たな事実性評価器FactReasonerを提案する。 ラベル付きおよびラベルなしのベンチマークデータセットの実験は、FactReasonerが最先端のプロンプトベースのアプローチよりも大幅に改善されていることを示す。
    論文  参考訳(メタデータ)   (Tue, 25 Feb 2025 19:01:48 GMT)
  • 一般的な「FactReasoner proceeds in a manner similar to existing prompt-based assessors by decomposing the response into atomic units and retrieving contexts relevant to them from an external knowledge source.」ではなく、「FactReasoner evaluates the factuality of the atoms by probabilistic reasoning over a graphical model that represents the logical relationships between the textual utterances corresponding to the atoms and contexts.」というアプローチ。

SurveyX: Academic Survey Automation via Large Language Models 

  • SurveyX: Academic Survey Automation via Large Language Models [23.1]
    SurveyXは、自動サーベイ生成のための効率的で組織化されたシステムである。 調査構成過程を, 準備と生成の2段階に分割する。 これは調査組成物の有効性を著しく向上させる。
    論文  参考訳(メタデータ)   (Thu, 20 Feb 2025 17:59:45 GMT)
  • 自動的なサーベイシステム「Inspired by human writing processes, we propose SurveyX, an efficient and organized system for automated survey generation that decomposes the survey composing process into two phases: the Preparation and Generation phases.」の構築、凝ったパイプライン構成。
  • プロジェクトサイトはSurveyX-Automated Survey Generation