- PP-DocLayout: A Unified Document Layout Detection Model to Accelerate Large-Scale Data Construction [4.2]
本稿では,文書フォーマットの異なる23種類のレイアウト領域の認識において,高い精度と効率を実現するPP-Docを提案する。 この研究は、文書レイアウト解析の最先端技術に加えて、高品質なトレーニングデータを構築するための堅牢なソリューションも提供する。
論文 参考訳(メタデータ) (Fri, 21 Mar 2025 15:20:47 GMT) - 「we present PPDocLayout, which achieves high precision and efficiency in recognizing 23 types of layout regions across diverse document formats.」と多様なデータに対応可能なレイアウト認識モデルの提案。
- リポジトリはPaddleX/README_en.md at release/3.0-rc · PaddlePaddle/PaddleX · GitHub
投稿者: staka
AdaWorld: Learning Adaptable World Models with Latent Actions
- AdaWorld: Learning Adaptable World Models with Latent Actions [76.5]
我々は,効率的な適応を実現する革新的な世界モデル学習手法であるAdaWorldを提案する。 主要なアイデアは、世界モデルの事前トレーニング中にアクション情報を統合することである。 次に、これらの潜伏行動を条件とした自己回帰的世界モデルを開発する。
論文 参考訳(メタデータ) (Mon, 24 Mar 2025 17:58:15 GMT) - 「We present AdaWorld, an autoregressive world model that is highly adaptable across various environments. It can readily transfer actions to different contexts and allows efficient adaptation with limited interactions.」というAdaWorldの提案。「AdaWorld consists of two key components: a latent action autoencoder that extracts actions from unlabeled videos, and an autoregressive world model that takes the extracted actions as conditions.」という構成。
- リポジトリはAdaWorld
MMDT: Decoding the Trustworthiness and Safety of Multimodal Foundation Models
- MMDT: Decoding the Trustworthiness and Safety of Multimodal Foundation Models [101.7]
MMFM(Multimodal foundation model)は、自律運転、ヘルスケア、バーチャルアシスタントなど、様々なアプリケーションにおいて重要な役割を果たす。 既存のマルチモーダルモデルのベンチマークは、主にこれらのモデルの有用性を評価するか、公平性やプライバシといった限られた視点にのみフォーカスする。 MMFMの安全性と信頼性を総合的に評価するために,最初の統合プラットフォームMMDT(Multimodal DecodingTrust)を提案する。
論文 参考訳(メタデータ) (Wed, 19 Mar 2025 01:59:44 GMT) - Multimodal foundation modelsの信頼性評価フレームワークの提案。主な対象はsafety, hallucination, fairness, privacy, adversarial robustness, out-of-distribution (OOD) robustness。MMFMsということでT2I、I2Tの両方が含まれる。
- プロジェクトサイトはMMDecodingTrust Benchmark、リーダーボードも存在するMMDecodingTrust Benchmark。公開モデルより商用モデルの方が平均的にはスコアが高そうだが、評価軸によって状況が大きく異なるのが興味深い。
Can LLMs Automate Fact-Checking Article Writing?
- Can LLMs Automate Fact-Checking Article Writing? [69.9]
我々は、一般的なファクトチェックパイプラインを拡張し、フルファクトチェック記事の自動生成の必要性を論じる。 我々は,人間のファクトチェッカーの筆記ワークフローを模倣した LLM ベースのエージェントフレームワーク QRAFT を開発した。
論文 参考訳(メタデータ) (Sat, 22 Mar 2025 07:56:50 GMT) - いわゆる普通のファクトチェックではなく「QRAFT as a multi-agent collaboration that mimics the factchecking article writing process of human experts」というフレームワークQRAFTの提案。
- 他手法よりも性能はよいものの「Our evaluation shows that while QRAFT outperforms several previously proposed text-generation approaches, it lags considerably behind expert-written articles.」というのは残念
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models
- Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [51.3]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。 OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (Thu, 20 Mar 2025 17:59:38 GMT) - overthinkingの防止、効率的な推論に関するサーベイ
- リポジトリはGitHub – Eclipsess/Awesome-Efficient-Reasoning-LLMs
Survey on Evaluation of LLM-based Agents
- Survey on Evaluation of LLM-based Agents [28.9]
LLMベースのエージェントの出現は、AIのパラダイムシフトを表している。 本稿では,これらのエージェントに対する評価手法に関する総合的な調査を初めて実施する。
論文 参考訳(メタデータ) (Thu, 20 Mar 2025 17:59:23 GMT) - 「We systematically analyze evaluation benchmarks and frameworks across four critical dimensions: (1) fundamental agent capabilities, including planning, tool use, self-reflection, and memory; (2) applicationspecific benchmarks for web, software engineering, scientific, and conversational agents; (3) benchmarks for generalist agents; and (4) frameworks for evaluating agents.」とエージェントの評価に関するサーベイ
Analyzable Chain-of-Musical-Thought Prompting for High-Fidelity Music Generation
- Analyzable Chain-of-Musical-Thought Prompting for High-Fidelity Music Generation [10.6]
音楽生成に適した新しいチェーン・オブ・シークレット(CoT)プロンプト技術であるMusiCoTを紹介する。 MusiCoTは、オーディオトークンを生成する前に、ARモデルに音楽構造全体を概説する権限を与える。 実験結果から,MusiCoTは主観的,主観的両指標で常に優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (Tue, 25 Mar 2025 12:51:21 GMT) - 「this paper presents MusiCoT, a novel chain-of-thought prompting technique that enhances high-fidelity music generation by aligning the creative processes of AR models with musical thought.」と音楽生成にもCoT…
- リポジトリはMusiCoT
Gemini 2.5, Deepseek V3, MCP …
週刊LLMが続いている。Gemini 2.5はGoogle Deepmindの最新モデルで非常に性能が高い(Gemini 2.5: Our newest Gemini model with thinking)。Humanity’s Last Examで18.8%と非常に難しいデータセットに対しても性能が上がっていっているのがすごい。Deepseek V3もアップデートが出ており当初のバージョンよりも性能が上がっている(DeepSeek-V3-0324 Release | DeepSeek API Docs、deepseek-ai/DeepSeek-V3-0324 · Hugging Face)。Gemma 3やQwen2.5 Omniのテクニカルレポートにも要注目。
LLM以外でもOpenAIのMCP対応(Model context protocol (MCP) – OpenAI Agents SDK)や画像生成AI(Introducing 4o Image Generation | OpenAI)などバズるニュースが多い。Reve AI | Next-Gen AI Image Generator with Reve Image 1.0など新たな動きもあり、本当に活発な分野である。
- Gemma 3 Technical Report [198.3]
Gemma 3は、軽量オープンモデルのGemmaファミリに対するマルチモーダルな追加である。 このバージョンでは、視覚理解能力、より広範な言語カバレッジ、より長いコンテキストが導入されている。 また、長いコンテキストで爆発しがちなKVキャッシュメモリを減らすために、モデルのアーキテクチャを変更します。
論文 参考訳(メタデータ) (Tue, 25 Mar 2025 15:52:34 GMT)
- Qwen2.5-Omni Technical Report [31.0]
本稿では,テキスト,画像,音声,ビデオなど多様なモーダル性を認識するために,テキストと自然な音声応答を同時生成するエンド・ツー・エンドのマルチモーダルモデルを提案する。 Qwen2.5-OmniはOmni-Benchのようなマルチモーダルベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (Wed, 26 Mar 2025 04:17:55 GMT)
Scaling Laws of Synthetic Data for Language Models
- Scaling Laws of Synthetic Data for Language Models [132.7]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。 提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (Tue, 25 Mar 2025 11:07:12 GMT) - 合成データのScaling lawに関する報告。高品質なデータ生成フレームワークSYnathLLMを前提に「Key findings from our extensive mathematical experiments on SYNTHLLM include: (1) SYNTHLLM generates synthetic data that reliably adheres to the rectified scaling law across various model sizes; (2) Performance improvements plateau near 300B tokens; and (3) Larger models approach optimal performance with fewer training tokens.」と合成データの有効性を示唆する結論になっている。
- プロジェクトサイトはAdvancing AI for Humanity。
SynCity: Training-Free Generation of 3D Worlds
- SynCity: Training-Free Generation of 3D Worlds [107.7]
テキスト記述から3次元世界を生成するためのトレーニング不要かつ最適化不要なアプローチであるSynCityを提案する。 3Dと2Dのジェネレータが組み合わさって、拡大するシーンを生成する方法を示す。
論文 参考訳(メタデータ) (Thu, 20 Mar 2025 17:59:40 GMT) - どこかで聞いたことのあるような論文タイトル。色々とうまく組み合わせている印象の手法だが、作例が面白い。
- リポジトリはSynCity: Training-Free Generation of 3D Worlds