- BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.9]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。 BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。 BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (Tue, 01 Oct 2024 15:11:24 GMT) - マルチモーダル、かつ、マルチストラクチャなデータを取り扱うタスクに対するベンチマークの提案。GPT-4oでもスコアは相当低いが、OpenAI o1に向くタスクな気もしていてo1を含むシステムで試してみたいところ。
- リポジトリはGitHub – FFD8FFE/babelbench