PP-DocLayout: A Unified Document Layout Detection Model to Accelerate Large-Scale Data Construction

  • PP-DocLayout: A Unified Document Layout Detection Model to Accelerate Large-Scale Data Construction [4.2]
    本稿では,文書フォーマットの異なる23種類のレイアウト領域の認識において,高い精度と効率を実現するPP-Docを提案する。 この研究は、文書レイアウト解析の最先端技術に加えて、高品質なトレーニングデータを構築するための堅牢なソリューションも提供する。
    論文  参考訳(メタデータ)   (Fri, 21 Mar 2025 15:20:47 GMT)
  • 「we present PPDocLayout, which achieves high precision and efficiency in recognizing 23 types of layout regions across diverse document formats.」と多様なデータに対応可能なレイアウト認識モデルの提案。
  • リポジトリはPaddleX/README_en.md at release/3.0-rc · PaddlePaddle/PaddleX · GitHub

AdaWorld: Learning Adaptable World Models with Latent Actions

  • AdaWorld: Learning Adaptable World Models with Latent Actions [76.5]
    我々は,効率的な適応を実現する革新的な世界モデル学習手法であるAdaWorldを提案する。 主要なアイデアは、世界モデルの事前トレーニング中にアクション情報を統合することである。 次に、これらの潜伏行動を条件とした自己回帰的世界モデルを開発する。
    論文  参考訳(メタデータ)   (Mon, 24 Mar 2025 17:58:15 GMT)
  • 「We present AdaWorld, an autoregressive world model that is highly adaptable across various environments. It can readily transfer actions to different contexts and allows efficient adaptation with limited interactions.」というAdaWorldの提案。「AdaWorld consists of two key components: a latent action autoencoder that extracts actions from unlabeled videos, and an autoregressive world model that takes the extracted actions as conditions.」という構成。
  • リポジトリはAdaWorld

MMDT: Decoding the Trustworthiness and Safety of Multimodal Foundation Models

  • MMDT: Decoding the Trustworthiness and Safety of Multimodal Foundation Models [101.7]
    MMFM(Multimodal foundation model)は、自律運転、ヘルスケア、バーチャルアシスタントなど、様々なアプリケーションにおいて重要な役割を果たす。 既存のマルチモーダルモデルのベンチマークは、主にこれらのモデルの有用性を評価するか、公平性やプライバシといった限られた視点にのみフォーカスする。 MMFMの安全性と信頼性を総合的に評価するために,最初の統合プラットフォームMMDT(Multimodal DecodingTrust)を提案する。
    論文  参考訳(メタデータ)   (Wed, 19 Mar 2025 01:59:44 GMT)
  • Multimodal foundation modelsの信頼性評価フレームワークの提案。主な対象はsafety, hallucination, fairness, privacy, adversarial robustness, out-of-distribution (OOD) robustness。MMFMsということでT2I、I2Tの両方が含まれる。
  • プロジェクトサイトはMMDecodingTrust Benchmark、リーダーボードも存在するMMDecodingTrust Benchmark。公開モデルより商用モデルの方が平均的にはスコアが高そうだが、評価軸によって状況が大きく異なるのが興味深い。

Can LLMs Automate Fact-Checking Article Writing?

  • Can LLMs Automate Fact-Checking Article Writing? [69.9]
    我々は、一般的なファクトチェックパイプラインを拡張し、フルファクトチェック記事の自動生成の必要性を論じる。 我々は,人間のファクトチェッカーの筆記ワークフローを模倣した LLM ベースのエージェントフレームワーク QRAFT を開発した。
    論文  参考訳(メタデータ)   (Sat, 22 Mar 2025 07:56:50 GMT)
  • いわゆる普通のファクトチェックではなく「QRAFT as a multi-agent collaboration that mimics the factchecking article writing process of human experts」というフレームワークQRAFTの提案。
  • 他手法よりも性能はよいものの「Our evaluation shows that while QRAFT outperforms several previously proposed text-generation approaches, it lags considerably behind expert-written articles.」というのは残念

Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models 

  • Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [51.3]
    大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。 OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
    論文  参考訳(メタデータ)   (Thu, 20 Mar 2025 17:59:38 GMT)
  • overthinkingの防止、効率的な推論に関するサーベイ
  • リポジトリはGitHub – Eclipsess/Awesome-Efficient-Reasoning-LLMs

Survey on Evaluation of LLM-based Agents 

  • Survey on Evaluation of LLM-based Agents [28.9]
    LLMベースのエージェントの出現は、AIのパラダイムシフトを表している。 本稿では,これらのエージェントに対する評価手法に関する総合的な調査を初めて実施する。
    論文  参考訳(メタデータ)   (Thu, 20 Mar 2025 17:59:23 GMT)
  • 「We systematically analyze evaluation benchmarks and frameworks across four critical dimensions: (1) fundamental agent capabilities, including planning, tool use, self-reflection, and memory; (2) applicationspecific benchmarks for web, software engineering, scientific, and conversational agents; (3) benchmarks for generalist agents; and (4) frameworks for evaluating agents.」とエージェントの評価に関するサーベイ