OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

  • OS-ATLAS: A Foundation Action Model for Generalist GUI Agents [55.4]
    OS-AtlasはGUIグラウンディングとOODエージェントタスクに優れた基礎的なGUIアクションモデルである。 現在までに1300万以上のGUI要素を含む、オープンソースのクロスプラットフォームGUI基盤コーパスをリリースしています。
    論文  参考訳(メタデータ)   (Wed, 30 Oct 2024 17:10:19 GMT)
  • GUIを対象としたFoundation Action Modelの提案、Anthropicの発表もあって盛り上がっている領域。性能は「although GPT-4o with OS-Atlas-Base as the grounding module still lags behind human performance, it significantly outperforms other grounding methods such as SeeClick and Set-of-Mark (SoM)」とのこと。
  • リポジトリはOS-Atlas Homepage

Improving Causal Reasoning in Large Language Models: A Survey、LLM-based Optimization of Compound AI Systems: A Survey

因果推論や最適化の分野でもLLMが活用されつつある。

  • LLM-based Optimization of Compound AI Systems: A Survey [64.4]
    複合AIシステムでは、LLMコール、レトリバー、コードインタプリタ、ツールなどのコンポーネントが相互接続される。 近年の進歩により, LLM を用いたパラメータのエンドツーエンド最適化が可能となった。 本稿では,複合AIシステムのLCMに基づく最適化の原理と動向について述べる。
    論文  参考訳(メタデータ)   (Mon, 21 Oct 2024 18:06:25 GMT)

JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation

  • JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation [63.8]
    JMMMU(JMMMU、日本語MMMU)は、日本の文化状況に基づいて、専門家レベルのタスクでLMMを評価するために設計された、日本初の大規模ベンチマークである。 CAサブセットを用いて、日本語で評価すると、多くのLMMのパフォーマンス低下が観察される。 両サブセットを組み合わせることで,一部のLMMはCAサブセットでは良好に機能するが,CSサブセットでは機能しないことが明らかとなり,文化的理解の深みに欠ける日本語の理解が浅かった。
    論文  参考訳(メタデータ)   (Tue, 22 Oct 2024 17:59:56 GMT)
  • MMMUの日本語版
  • リポジトリはJMMMU