- MM-LLMs: Recent Advances in MultiModal Large Language Models [51.5]
過去1年間で、MM-LLM(MultiModal Large Language Models)が大幅に進歩している。 MM-LLMのさらなる研究を促進するための総合的な調査を行う。
論文 参考訳(メタデータ) (Thu, 25 Jan 2024 03:46:15 GMT) - マルチモーダルLLMのサーベイ
- SOTA-LLM、ベンチマーク結果表などとてもありがたい、一方ですぐ情報がアップデートされるのだろうなとも。。。
- プロジェクトサイトはhttps://mm-llms.github.io/とのことだが現状404
日: 2024年2月8日
AgentBoard
- AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [77.0]
大きな言語モデル(LLM)を評価することは、その能力を理解し、実践的なアプリケーションへの統合を促進するために不可欠である。 本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
論文 参考訳(メタデータ) (Wed, 24 Jan 2024 01:51:00 GMT) - LLMエージェントの分析的評価のためのフレームワーク
- 対象タスクは9つ。Embodied AI / AlfWorld, ScienceWorld, BabyAI、Game / Jericho, PDDL、Web / WebShop, WebArena、Tool / Tool-Query, Tool-Operation。論文で比べられているものの中ではGPT-4の性能が圧倒的。
- リポジトリはhkust-nlp/AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents (github.com)、リーダーボードはResult | AgentBoard: An Analytical Evaluation Board of Multi-Turn LLM Agents (hkust-nlp.github.io)