先週の大きなニュースは業界標準になりつつあるhttps://lmarena.ai/?leaderboardで、Geminiの最新バージョン(試験運用版モデル | Gemini API | Google AI for Developers)が一位をとったこと、Alpha Fold 3が公開されたこと(AlphaFold – Google DeepMind、GitHub – google-deepmind/alphafold3: AlphaFold 3 inference pipeline.)だったと思う。やはり、Google, DeepMindは凄い。
そのほか。極めて難しい数学的問題を集めたFrontierMathベンチマークの登場も興味深かった。もはや人でも相当の専門家以外は扱えない問題になっているがこれらをLeakなく解くモデルが現れるのはいつになるのだろうか。(意外と近い将来な気もしていて期待と不安がある)
- FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI [2.1]
FrontierMath(フロンティアマス、フロンティアマス、FrontierMath)は、数学者が考案し検証した何百もの数学問題のベンチマークである。 現在の最先端のAIモデルは、問題の2%未満を解決し、AI能力と数学的コミュニティの長所との間に大きなギャップが浮かび上がっている。 AIシステムが専門家レベルの数学的能力に向かって進むにつれ、FrontierMathは彼らの進歩を定量化する厳格なテストベッドを提供する。
論文 参考訳(メタデータ) (Thu, 14 Nov 2024 16:26:03 GMT) - 「Current state-of-the-art AI models solve under 2% of problems」という極めてチャレンジングな問題。