Claude 3.7, GPT-4.5, Phi-4, Selene

先週も大きなニュースが多く、AnthropicのClaude 3.7 sonnet、OpenAIのGPT-4.5などフラグシップと呼べるモデルの発表が相次いだ。

Claude 3.7はLLM&LRMというようなモデルでコード生成で高い性能を発揮している。Claude 3.7 Sonnet and Claude Code \ Anthropic

GPT-4.5は巨大・高性能なLLMという印象GPT-4.5 が登場 | OpenAI。LRMでは解きにくい領域ではとても有効そう。ベンチマーク個別では同じLLMのDeepseek V3に負けているものがあり(GitHub – deepseek-ai/DeepSeek-V3のAIME 2024やSWE Verified)、OpenAI一強時代の終わりを感じさせる結果になっている。

このような中、MicrosoftのPhi-4シリーズでも新たなモデルが公開されているWelcome to the new Phi-4 models – Microsoft Phi-4-mini & Phi-4-multimodal。小型モデルでも十分な性能が出ているように見える。

Frontier AI needs frontier evaluators. Meet Selene.など、強力なevaluatorなどLLMやLRMを補完する動きも興味深い。

LLM, LRM, SLMやチューニング、ハイブリッド構成など様々なアプローチがあり、モデルの選択肢も増え、何を選択していくべきか悩む時代になったのかなという印象。

  • Atla Selene Mini: A General Purpose Evaluation Model [2.9]
    我々はSLMJ(Small-as-a-judge)の最先端の小型言語であるAtla Selene Miniを紹介した。 Selene Miniは、全体的なパフォーマンスにおいて最高のSLMJとGPT-4o-miniより優れた汎用評価器である。 RewardBenchで最も高い8B生成モデルである。
    論文  参考訳(メタデータ)   (Mon, 27 Jan 2025 15:09:08 GMT)
  • 上述のEvaluaterチームの論文
  • Phi-4-Mini Technical Report: Compact yet Powerful MultimodalLanguage Models via Mixture-of-LoRAs
    Phi-4MiniとPhi-4-Multimodal、コンパクトで高機能な言語とマルチモーダルモデルを紹介します。Phi-4-Miniは、高品質なウェブおよび合成データに基づいて訓練された3.8ビリオンパラメータ言語モデルである。Phi-4-Multimodalは、テキスト、視覚、音声/音声入力モダリティを単一のモデルに統合するマルチモーダルモデルである。
  • phi_4_mm.tech_report.02252025.pdf · microsoft/Phi-4-multimodal-instruct at main
  • OpenAI GPT-4.5 System Card
    GPT-4.5は事前トレーニングをさらにスケールし、強力なSTEM焦点推論モデルよりも汎用的に設計されている。幅広い知識ベース、ユーザーの意図とのより強固な連携、感情的知性の向上は、執筆、プログラミング、実用的な問題解決といったタスクに適している。
  • OpenAI GPT-4.5 System Card | OpenAI

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です