A Survey on Evaluation of Multimodal Large Language Models / A Comprehensive Survey of Story Evaluation

大規模言語モデル（LLM）及びそのマルチモーダルな拡張（MLLM）でできるようになったこと（できているようにみえること）は多いが、正しい評価をどうすればよいか不明瞭なものは多い。サーベイも数多く出ている。

A Survey on Evaluation of Multimodal Large Language Models [11.6]
マルチモーダル大規模言語モデル(MLLM)は、強力な大規模言語モデル(LLM)を統合することで、人間の知覚と推論システムを模倣するこの枠組みはMLLMに人間のような能力を与え、人工知能(AGI)の実現への潜在的経路を示唆している。 GPT-4V や Gemini のような全周MLLM の出現に伴い,様々な次元にわたってその能力を評価するための評価手法が開発されている。
論文参考訳（メタデータ） (Wed, 28 Aug 2024 13:05:55 GMT)
MLLMの評価に関するサーベイ

What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation [57.6]
ストーリーを評価することは、他の世代の評価タスクよりも難しい場合があります。まず、テキスト・トゥ・テキスト、ビジュアル・トゥ・テキスト、テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクを要約する。本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
論文参考訳（メタデータ） (Mon, 26 Aug 2024 20:35:42 GMT)
ストーリーに対する評価のサーベイ

コメントを残すコメントをキャンセル