Competition-Level Problems are Effective LLM Evaluators

  • Competition-Level Problems are Effective LLM Evaluators [124.8]
    本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。 まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。 驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
    論文  参考訳(メタデータ)   (Tue, 5 Dec 2023 03:44:19 GMT)
  • LLMのデータ汚染問題を検証するためにCodeforceの問題を利用。「We find a significant decrease in perceived performance of GPT-4 on unseen problems, consistent across a range of difficulties, problem types, and experimental settings.」という結果でなかなか衝撃的。
  • 別の検証でも似たような指摘はあったし、Geminiのテクニカルレポートでも「 Evaluation on these benchmarks is challenging and may be affected by data contamination.We performed an extensive leaked data analysis after training to ensure the results we report here are as scientifically sound as possible, but still found some minor issues and decided not to report results on e g LAMBADA (Paperno et al , 2016).(gemini_1_report.pdf (storage.googleapis.com))」という指摘がある。正しい評価は難しい。

Chain of Code

  • Chain of Code: Reasoning with a Language Model-Augmented Code Emulator [119.0]
    言語モデル(LM)はコード記述を活用して思考の連鎖推論を改善する。 我々は、LMコード駆動推論を改善するシンプルな、そして驚くほど効果的な拡張であるChain of Code (CoC)を提案する。
    論文  参考訳(メタデータ)   (Thu, 7 Dec 2023 17:51:43 GMT)
  • LLMをコードを通して考えさせることによって性能が向上する(Chain of Code achieves 84%, a gain of 12% over Chain of Thought)とのこと。PALのようなプログラミング言語を通すアプローチと異なり、実行できる場合はインタプリタを実行できない場合は疑似コードを LMulator (a portmanteau of LM and emulator)を通して解釈する点が特徴。
  • リポジトリはChain of Code (google.com)

Gemini

先週の大きな話題としてGeminiの発表があった。非常に性能の高いマルチモーダルなLLM
Google Japan Blog: 最大かつ高性能 AI モデル、Gemini を発表 – AI をすべての人にとってより役立つものに (googleblog.com)

動画もテクニカルノート(gemini_1_report.pdf (storage.googleapis.com))の興味深いが、「We trained two versions of Nano, with 1.8B (Nano-1) and 3.25B (Nano-2) parameters, targeting low and high memory devices respectively.」という3B程度ではNano扱いというのもびっくり。BERT LARGEの10倍の規模なんだけど…と思うと進化の速さがよくわかる。

OneLLM

  • OneLLM: One Framework to Align All Modalities with Language [90.1]
    統一フレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。 OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含む。
    論文  参考訳(メタデータ)   (Wed, 6 Dec 2023 18:59:19 GMT)
  • マルチモーダルなLLMの提案、image, audio, video, point cloud, depth/normal map, IMU and fMRI brain activityとあまり見ないモーダルにも対応。Universal Encoder → Universal Projection Module → LLMなアーキテクチャでEncoderはFrozenとのこと。様々なベンチマークで高い性能を発揮。
  • リポジトリはGitHub – csuhan/OneLLM: OneLLM: One Framework to Align All Modalities with Language