- OS-ATLAS: A Foundation Action Model for Generalist GUI Agents [55.4]
OS-AtlasはGUIグラウンディングとOODエージェントタスクに優れた基礎的なGUIアクションモデルである。 現在までに1300万以上のGUI要素を含む、オープンソースのクロスプラットフォームGUI基盤コーパスをリリースしています。
論文 参考訳(メタデータ) (Wed, 30 Oct 2024 17:10:19 GMT) - GUIを対象としたFoundation Action Modelの提案、Anthropicの発表もあって盛り上がっている領域。性能は「although GPT-4o with OS-Atlas-Base as the grounding module still lags behind human performance, it significantly outperforms other grounding methods such as SeeClick and Set-of-Mark (SoM)」とのこと。
- リポジトリはOS-Atlas Homepage
日: 2024年11月6日
Improving Causal Reasoning in Large Language Models: A Survey、LLM-based Optimization of Compound AI Systems: A Survey
因果推論や最適化の分野でもLLMが活用されつつある。
- Improving Causal Reasoning in Large Language Models: A Survey [16.6]
因果推論は知性の重要な側面であり、問題解決、意思決定、世界理解に不可欠である。 大規模言語モデル(LLM)は出力に対して有理性を生成することができるが、因果推論を確実に行う能力は未だ不明である。
論文 参考訳(メタデータ) (Tue, 22 Oct 2024 04:18:19 GMT) - リポジトリはGitHub – chendl02/Awesome-LLM-Causal-Reasoning: Awesome LLM Causal Reasoning is a collection of LLM-based casual reasoning works, including papers, codes and datasets.
- LLM-based Optimization of Compound AI Systems: A Survey [64.4]
複合AIシステムでは、LLMコール、レトリバー、コードインタプリタ、ツールなどのコンポーネントが相互接続される。 近年の進歩により, LLM を用いたパラメータのエンドツーエンド最適化が可能となった。 本稿では,複合AIシステムのLCMに基づく最適化の原理と動向について述べる。
論文 参考訳(メタデータ) (Mon, 21 Oct 2024 18:06:25 GMT)
JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation
- JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation [63.8]
JMMMU(JMMMU、日本語MMMU)は、日本の文化状況に基づいて、専門家レベルのタスクでLMMを評価するために設計された、日本初の大規模ベンチマークである。 CAサブセットを用いて、日本語で評価すると、多くのLMMのパフォーマンス低下が観察される。 両サブセットを組み合わせることで,一部のLMMはCAサブセットでは良好に機能するが,CSサブセットでは機能しないことが明らかとなり,文化的理解の深みに欠ける日本語の理解が浅かった。
論文 参考訳(メタデータ) (Tue, 22 Oct 2024 17:59:56 GMT) - MMMUの日本語版
- リポジトリはJMMMU