- Unveiling In-Context Learning: A Coordinate System to Understand Its Working Mechanism [28.8]
大規模言語モデル(LLM)は、テキスト内学習能力に優れる。 最近の研究は、ICLに関する2つの矛盾する見解を示している。 両ビューを体系的なフレームワークに統合する2次元コーディネートシステムを提供する。
論文 参考訳(メタデータ) (Wed, 24 Jul 2024 05:26:52 GMT) - ICLの重要な要素である「タスク認識」と「近い事例情報の供給」についてマトリクスで検証した論文。
日: 2024年8月1日
LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models
- LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models [71.8]
LMMS-EVALは50以上のタスクと10以上のモデルを持つ統一的で標準化されたマルチモーダルベンチマークフレームワークである。 LMMS-EVAL LITEは、カバー範囲と効率の両方を重視したプルーニング評価ツールキットである。 マルチモーダルなLIVEBENCHは、ニュースやオンラインフォーラムを継続的に更新し、野生におけるモデルの一般化能力を評価する。
論文 参考訳(メタデータ) (Wed, 17 Jul 2024 17:51:53 GMT) - マルチモーダルなLLM用のベンチマーク。LiveBenchではGPT4 TurboがGPT4oより高スコアとなっている。
- リポジトリはGitHub – EvolvingLMMs-Lab/lmms-eval: Accelerating the development of large multimodal models (LMMs) with lmms-eval、リーダーボードはLiveBench – a Hugging Face Space by lmms-lab