2024年11月6日 – arXiv最新論文の紹介

OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

OS-ATLAS: A Foundation Action Model for Generalist GUI Agents [55.4]
OS-AtlasはGUIグラウンディングとOODエージェントタスクに優れた基礎的なGUIアクションモデルである。現在までに1300万以上のGUI要素を含む、オープンソースのクロスプラットフォームGUI基盤コーパスをリリースしています。
論文参考訳（メタデータ） (Wed, 30 Oct 2024 17:10:19 GMT)
GUIを対象としたFoundation Action Modelの提案、Anthropicの発表もあって盛り上がっている領域。性能は「although GPT-4o with OS-Atlas-Base as the grounding module still lags behind human performance, it significantly outperforms other grounding methods such as SeeClick and Set-of-Mark (SoM)」とのこと。
リポジトリはOS-Atlas Homepage

因果推論や最適化の分野でもLLMが活用されつつある。

Improving Causal Reasoning in Large Language Models: A Survey [16.6]
因果推論は知性の重要な側面であり、問題解決、意思決定、世界理解に不可欠である。大規模言語モデル(LLM)は出力に対して有理性を生成することができるが、因果推論を確実に行う能力は未だ不明である。
論文参考訳（メタデータ） (Tue, 22 Oct 2024 04:18:19 GMT)
リポジトリはGitHub – chendl02/Awesome-LLM-Causal-Reasoning: Awesome LLM Causal Reasoning is a collection of LLM-based casual reasoning works, including papers, codes and datasets.

LLM-based Optimization of Compound AI Systems: A Survey [64.4]
複合AIシステムでは、LLMコール、レトリバー、コードインタプリタ、ツールなどのコンポーネントが相互接続される。近年の進歩により, LLM を用いたパラメータのエンドツーエンド最適化が可能となった。本稿では,複合AIシステムのLCMに基づく最適化の原理と動向について述べる。
論文参考訳（メタデータ） (Mon, 21 Oct 2024 18:06:25 GMT)

JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation [63.8]
JMMMU(JMMMU、日本語MMMU)は、日本の文化状況に基づいて、専門家レベルのタスクでLMMを評価するために設計された、日本初の大規模ベンチマークである。 CAサブセットを用いて、日本語で評価すると、多くのLMMのパフォーマンス低下が観察される。両サブセットを組み合わせることで,一部のLMMはCAサブセットでは良好に機能するが,CSサブセットでは機能しないことが明らかとなり,文化的理解の深みに欠ける日本語の理解が浅かった。
論文参考訳（メタデータ） (Tue, 22 Oct 2024 17:59:56 GMT)
MMMUの日本語版
リポジトリはJMMMU