コンテンツへスキップ
- GUI Agents with Foundation Models: A Comprehensive Survey [53.0]
この調査は(M)LLMベースのGUIエージェントに関する最近の研究を集約する。 データ、フレームワーク、アプリケーションにおける重要なイノベーションを強調します。 本稿では, (M)LLM ベースの GUI エージェントの分野におけるさらなる発展を期待する。
論文 参考訳(メタデータ) (Thu, 07 Nov 2024 17:28:10 GMT)
- MLLMベースのGUIエージェントのサーベイ
- 研究が進んでいると思ったらサーベイが発表されるスピード感がこの分野の現状を表していると思う。
- MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark [44.7]
MMAUは、人間の注釈付き自然言語の質問と回答とを合わせた、注意深く編集された10kのオーディオクリップで構成されている。 これには、情報抽出と推論の質問が含まれており、モデルは、ユニークで困難なタスクにまたがる27の異なるスキルを実証する必要がある。 我々は18のオープンソースおよびプロプライエタリなAudio-Language Modelを評価し、MMAUがもたらす重大な課題を実証した。
論文 参考訳(メタデータ) (Thu, 24 Oct 2024 21:20:10 GMT)
- 音声(speech, sounds, music)を軸とした理解・推論のベンチマーク。GPT-4o、Gemini Pro 1.5の性能が高めだが、「Our evaluations of 18 open-source and proprietary LALMs reveal that even the overall best model achieves only 59% accuracy on MMAU, highlighting the significant challenges it poses.」とのこと。人間のスコア(約80%)との差も大きい。
- リポジトリはMMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark