Gemini-Exp-1114, Alpha Fold 3, Frontier Math

先週の大きなニュースは業界標準になりつつあるhttps://lmarena.ai/?leaderboardで、Geminiの最新バージョン(試験運用版モデル  |  Gemini API  |  Google AI for Developers)が一位をとったこと、Alpha Fold 3が公開されたこと(AlphaFold – Google DeepMindGitHub – google-deepmind/alphafold3: AlphaFold 3 inference pipeline.)だったと思う。やはり、Google, DeepMindは凄い。

そのほか。極めて難しい数学的問題を集めたFrontierMathベンチマークの登場も興味深かった。もはや人でも相当の専門家以外は扱えない問題になっているがこれらをLeakなく解くモデルが現れるのはいつになるのだろうか。(意外と近い将来な気もしていて期待と不安がある)

  • FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI [2.1]
    FrontierMath(フロンティアマス、フロンティアマス、FrontierMath)は、数学者が考案し検証した何百もの数学問題のベンチマークである。 現在の最先端のAIモデルは、問題の2%未満を解決し、AI能力と数学的コミュニティの長所との間に大きなギャップが浮かび上がっている。 AIシステムが専門家レベルの数学的能力に向かって進むにつれ、FrontierMathは彼らの進歩を定量化する厳格なテストベッドを提供する。
    論文  参考訳(メタデータ)   (Thu, 14 Nov 2024 16:26:03 GMT)
  • 「Current state-of-the-art AI models solve under 2% of problems」という極めてチャレンジングな問題。

Geminiの評価

Geminiの評価に関する論文が出ている。

  • An In-depth Look at Gemini’s Language Abilities [49.9]
    OpenAI GPTとGoogle Geminiモデルの能力を比較する。 この分析は、さまざまな言語能力をテストする10のデータセットに対して実施します。 Gemini Pro は GPT 3.5 Turbo よりも近いがわずかに劣る精度を実現している。
    論文  参考訳(メタデータ)   (Mon, 18 Dec 2023 18:47:42 GMT)
  • Gemini Proに対する主として言語能力の評価。「we find that Gemini Pro achieves accuracy that is close but slightly inferior to the corresponding GPT 3.5 Turbo on all tasks that we benchmarked.」とのこと。Gemini ProはGPT-3.5と競合的、GPT-4と比べられていたのは主にGemini Ultraなので結果に違和感はない。
  • リポジトリはGitHub – neulab/gemini-benchmark

Gemini: A Family of Highly Capable Multimodal Models 

  • Gemini: A Family of Highly Capable Multimodal Models [517.1]
    マルチモーダルモデルの新たなファミリーであるGeminiは、画像、オーディオ、ビデオ、テキスト理解にまたがる優れた機能を示している。 ファミリーはUltra、Pro、Nanoサイズで構成されており、複雑な推論タスクからオンデバイスメモリに制約のあるユースケースまで幅広い用途に適している。
    論文  参考訳(メタデータ)   (Tue, 19 Dec 2023 02:39:27 GMT)
  • Gemini – arXiv最新論文の紹介 (devneko.jp) の論文、arXiv版。改めて驚きの著者数。

Gemini

先週の大きな話題としてGeminiの発表があった。非常に性能の高いマルチモーダルなLLM
Google Japan Blog: 最大かつ高性能 AI モデル、Gemini を発表 – AI をすべての人にとってより役立つものに (googleblog.com)

動画もテクニカルノート(gemini_1_report.pdf (storage.googleapis.com))の興味深いが、「We trained two versions of Nano, with 1.8B (Nano-1) and 3.25B (Nano-2) parameters, targeting low and high memory devices respectively.」という3B程度ではNano扱いというのもびっくり。BERT LARGEの10倍の規模なんだけど…と思うと進化の速さがよくわかる。