UI-TARS: Pioneering Automated GUI Interaction with Native Agents

  • UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.2]
    本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。 OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
    論文  参考訳(メタデータ)   (Tue, 21 Jan 2025 17:48:10 GMT)
  • GUIエージェント、UI-TARSの提案、様々なタスクでSOTAを主張。「UI-TARS incorporates several key innovations: (1) Enhanced Perception: leveraging a large-scale dataset of GUI screenshots for contextaware understanding of UI elements and precise captioning; (2) Unified Action Modeling, which standardizes actions into a unified space across platforms and achieves precise grounding and interaction through large-scale action traces; (3) System-2 Reasoning, which incorporates deliberate reasoning into multi-step decision making, involving multiple reasoning patterns such as task decomposition, reflection thinking, milestone recognition, etc. (4) Iterative Training with Reflective Online Traces, which addresses the data bottleneck by automatically collecting, filtering, and reflectively refining new interaction traces on hundreds of virtual machines.」とやれることは盛り込んだ感がすごい。
  • リポジトリはGitHub – bytedance/UI-TARS

A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities

  • A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities [31.2]
    医療におけるEmAIは、アルゴリズム、ロボティクス、バイオメディシンといった多様な分野にまたがる。 医療のためのEmAIの”脳”の概要を包括的に紹介し、認識、アクティベーション、計画、記憶のためのAIアルゴリズムを紹介します。 我々は、技術的な障壁を議論し、倫理的考察を探求し、医療におけるEmAIの将来を前方視する。
    論文  参考訳(メタデータ)   (Mon, 13 Jan 2025 16:35:52 GMT)
  • 医療におけるEmbodiedAIのサーベイ。非常に広範な内容で引用数は800を超える

MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents 

  • MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents [26.4]
    この研究はMMDocIRと呼ばれる新しいベンチマークを導入し、ページレベルとレイアウトレベルの検索という2つの異なるタスクを含んでいる。 MMDocIRベンチマークは,1,685問の注釈付きラベルと173,843問の自己ストラップ付きラベルを備えた,豊富なデータセットで構成されている。
    論文  参考訳(メタデータ)   (Wed, 15 Jan 2025 14:30:13 GMT)
  • マルチモーダル、長い文書への検索ベンチマーク、document page-level and layout-level retrievalの2つがあるのが特徴的。
  • リポジトリはMMDocIR (MMDocIR)

RECALL: Library-Like Behavior In Language Models is Enhanced by Self-Referencing Causal Cycles 

  • RECALL: Library-Like Behavior In Language Models is Enhanced by Self-Referencing Causal Cycles [18.1]
    自己参照因果サイクル(RECALL)の概念を紹介する。 これにより、一方向因果関係の制限を回避できる。 RECALLは、私たちがサイクルトークンとして指定したものによって駆動されています。
    論文  参考訳(メタデータ)   (Thu, 23 Jan 2025 09:14:07 GMT)
  • self-referencing causal cycles、RECALL 「a mechanism that enables large language models (LLMs) to bypass the limitations of unidirectional causality, which underlies a phenomenon known as the reversal curse.」の提案。Causal language modelでよくみられるの課題への対応で興味深い。
  • https://github.com/samunaai/remember がリポジトリとのことだが、現状404

Harnessing Large Language Models for Disaster Management: A Survey

  • Harnessing Large Language Models for Disaster Management: A Survey [57.0]
    大規模言語モデル(LLM)は、その例外的な能力で科学研究に革命をもたらし、様々な分野を変革した。 本研究の目的は,災害対策のための高度LLMの開発における専門家コミュニティの指導であり,自然災害に対するレジリエンスを高めることである。
    論文  参考訳(メタデータ)   (Sun, 12 Jan 2025 21:00:50 GMT)
  • 災害へのLLM適用に関するサーベイで、Mitigation、Preparedness、Response、Recoveryの軸で整理

GPS as a Control Signal for Image Generation 

  • GPS as a Control Signal for Image Generation [95.4]
    画像メタデータに含まれるGPSタグは,画像生成に有用な制御信号であることを示す。 私たちはGPSと画像のモデルをトレーニングし、都市内の画像がどのように変化するかの詳細な理解を必要とするタスクにそれらを使用します。
    論文  参考訳(メタデータ)   (Tue, 21 Jan 2025 18:59:46 GMT)
  • 「Our work suggests that GPS coordinates are a useful signal for controllable image generation.」とのこと。直観的には確かに有効そうであるし、コンテキストとして明確な情報を与える場合も多そうに思う。
  • プロジェクトサイトはGPS as a Control Signal for Image Generation

Generative AI for Cel-Animation: A Survey

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning 

Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective

  • Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective [90.9]
    CoR(Chain-of-Reasoning)は、複数の推論パラダイムを統合する新しい統合フレームワークである。 CoRは異なる推論パラダイムを用いて複数の潜在的な答えを生成し、それらをコヒーレントな最終解へと合成する。 実験の結果,CoR-Math-7Bは現在のSOTAモデルより有意に優れていた。
    論文  参考訳(メタデータ)   (Sun, 19 Jan 2025 16:53:26 GMT)
  • 「we introduce Chain-of-Reasoning (CoR), a novel unified framework that integrates multiple reasoning paradigms—Natural Language Reasoning (NLR), Algorithmic Reasoning (AR), and Symbolic Reasoning (SR)—to enable synergistic collaboration.」とのこと。LRMとして構築しているアプローチだが、Agenticに使った場合との性能差をしりたいところ。

PaSa: An LLM Agent for Comprehensive Academic Paper Search 

  • PaSa: An LLM Agent for Comprehensive Academic Paper Search [9.7]
    PaSaは大規模言語モデルを利用した高度な論文検索エージェントである。 合成データセットであるAutoScholarQueryを用いた強化学習を用いてPaSaを最適化する。 合成データでトレーニングされているにも関わらず、PaSaはRealScholarQueryの既存のベースラインを大幅に上回っている。
    論文  参考訳(メタデータ)   (Fri, 17 Jan 2025 11:12:28 GMT)
  • 「PaSa can autonomously make a series of decisions, including invoking search tools, reading papers, and selecting relevant references, to ultimately obtain comprehensive and accurate results for complex scholarly queries.」という論文情報を集めてくるエージェント。
  • ベンチマークとしてAutoScholarQueryを構築している点が特徴的なのと、「Although PaSa is trained solely on synthetic data, it achieves remarkable real-world performance.」は少し驚き。