BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data

  • BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.9]
    大規模言語モデル(LLM)は、様々な領域でますます重要になっている。 BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。 BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
    論文  参考訳(メタデータ)   (Tue, 01 Oct 2024 15:11:24 GMT)
  • マルチモーダル、かつ、マルチストラクチャなデータを取り扱うタスクに対するベンチマークの提案。GPT-4oでもスコアは相当低いが、OpenAI o1に向くタスクな気もしていてo1を含むシステムで試してみたいところ。
  • リポジトリはGitHub – FFD8FFE/babelbench

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です