Empowering LLMs in Decision Games through Algorithmic Data Synthesis

  • Empowering LLMs in Decision Games through Algorithmic Data Synthesis [29.1]
    意思決定ゲームは、大規模言語モデルの推論能力を評価し、強化するための理想的なサンドボックスとして機能する。 データ合成戦略を設計し、2つの古典ゲーム、DoudizhuとGoから広範囲のオフラインデータセットをキュレートする。 我々は、このデータをLLMトレーニングに効果的に組み込むための一連の技術を開発し、その結果、Mastermind-Dou と Mastermind-Go という2つの新しいエージェントを生み出した。
    論文  参考訳(メタデータ)   (Tue, 18 Mar 2025 07:30:29 GMT)
  • 一般的に数学やコード生成を対象にLRM化が行われているがこの論文では「Through a suite of our designed techniques in data collection and training, we have developed MasterMind agents, demonstrating commendable performance in both Doudizhu and Go.」とゲームが対象。「Empirical experiments also serve to substantiate the potential of this approach in improving general reasoning capabilities of LLMs.」というのがとても興味深い。人間でいうところの「脳によい〇〇」的なタスクがあるのだろうか。(もっとも性能が落ちるタスクがあることも指摘されているが・・・)
  • データセットが公開されている。OpenDILabCommunity/MasterMind · Datasets at Hugging Face

Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models 

  • Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models [11.3]
    ロングチェーン・オブ・ソート(Long CoT)特性は推論能力を高め、複雑な問題の解決を可能にする。 まず、Long CoTとShort CoTを区別し、現在の推論パラダイムを分類する新しい分類法を導入する。 次に,Long CoTの出現やオーバー思考,テストタイムスケーリングなど,これらの特徴について考察する。
    論文  参考訳(メタデータ)   (Wed, 12 Mar 2025 17:35:03 GMT)
  • LRMでキーとなっているLong Chain of thoughtのサーベイ。「We first distinguish Long CoT from Short CoT and introduce a novel taxonomy to categorize current reasoning paradigms.」と(通常の)Short CoTと Long CoTを分けている。
  • リポジトリはTowards Reasoning Era: A Survey of Long Chain-of-Thought

Parameters vs. Context: Fine-Grained Control of Knowledge Reliance in Language Models 

  • Parameters vs. Context: Fine-Grained Control of Knowledge Reliance in Language Models [39.7]
    Retrieval-Augmented Generation (RAG)は、外部知識を統合することで、大規模言語モデル(LLM)における幻覚を緩和する。 パラメトリック知識と検索コンテキストの対立は、RAGに課題をもたらす。 パラメトリックおよび文脈知識へのRAGの依存度を制御するためのプラグイン・アンド・プレイ方式である*CK-PLUG*を提案する。
    論文  参考訳(メタデータ)   (Thu, 20 Mar 2025 06:26:28 GMT)
  • LLM内部の知識(arametric knowledge )とRAGのRetirerverなどから与えられる知識(retrieved context)のバランスをとる手法、CK-PLUG (Controllable Knowledge Plug-in)の提案。
  • リポジトリはGitHub – byronBBL/CK-PLUG: Official repository of paper “Parameters vs. Context: Fine-Grained Control of Knowledge Reliance in Language Models”

Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond

  • Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond [14.4]
    私たちはまず、長いCOT能力を欠いたモデルから始まる、長いCOTモデルをスクラッチからトレーニングすることに重点を置いています。 Qwen2.5-32B-Instructから2段階のSFTとセミオン・ポリティクスDPOからなるカリキュラムトレーニングレシピを用いて、我々のモデルであるLight-R1-32Bをトレーニングする。 AIME24と25のスコアはそれぞれ74.0と60.2であり、Light-R1-14B-DSは32BモデルとDeepSeek-R1-Distill-Llama-70Bを抜いた。
    論文  参考訳(メタデータ)   (Thu, 13 Mar 2025 15:29:22 GMT)
  • 2ステージのSFT+DPO Optimization(+ model merge)で構築したモデル。「High-Quality Data is All You Need」の通りデータセット側のパイプラインも凝っている。他の研究成果でも近いことが指摘されているが「Despite being trained exclusively on math data, Light-R1-32B shows strong generalization across other domains.」は興味深い。
  • リポジトリはGitHub – Qihoo360/Light-R1

Qilin: A Multimodal Information Retrieval Dataset with APP-level User Sessions

  • Qilin: A Multimodal Information Retrieval Dataset with APP-level User Sessions [39.2]
    検索・レコメンデーション(S&R)を伴う複雑なシステムにおけるユーザエクスペリエンス向上の課題は、学術と産業の両方から大きな注目を集めている。 本稿では,新しいマルチモーダル情報検索データセット,すなわちQilinを提案する。 データセットはXiaohongshuから収集されている。Xiaohongshuは3億人の月間アクティブユーザーがいて、平均的な検索浸透率は70%を超えている。
    論文  参考訳(メタデータ)   (Sat, 01 Mar 2025 14:15:00 GMT)
  • マルチモーダルなsearch and recommendationを対象としたデータセット
  • リポジトリはGitHub – RED-Search/Qilin: Resources and code for the Qilin dataset.

Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k

  • Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k [39.5]
    商用レベルのビデオ生成モデルであるOpen-Sora 2.0について紹介する。 トップパフォーマンスビデオ生成モデルのトレーニングコストは,高い制御性を有することを示す。 Open-Sora 2.0を完全にオープンソースにすることで、先進的なビデオ生成技術へのアクセスを民主化することを目指している。
    論文  参考訳(メタデータ)   (Wed, 12 Mar 2025 05:00:07 GMT)
  • その名の通りオープンなビデオ生成モデルの提案。
  • リポジトリはGitHub – hpcaitech/Open-Sora: Open-Sora: Democratizing Efficient Video Production for All

PlanGen: Towards Unified Layout Planning and Image Generation in Auto-Regressive Vision Language Models 

  • PlanGen: Towards Unified Layout Planning and Image Generation in Auto-Regressive Vision Language Models [10.3]
    画像を生成する前に空間配置条件を事前に計画できる統合レイアウト計画と画像生成モデルPlanGenを提案する。 PlanGenは、ローカルキャプションとバウンディングボックス座標の特別なエンコーディングを必要とせずに、レイアウト条件をコンテキストとしてモデルに統合する。 さらに、よく設計されたモデリングのおかげで、PlanGenはレイアウト誘導の画像操作にシームレスに拡張できる。
    論文  参考訳(メタデータ)   (Thu, 13 Mar 2025 07:37:09 GMT)
  • 画像生成の前にレイアウト計画可能なモデルの提案。コンテキストとしてレイアウトを受け取ることが可能「PlanGen can complete layout planning and layout-to-image generation in a unified model. Just like thinking about what object each area should be before generating an image, such an explicit planning process allows the model to enjoy more powerful image generation capabilities.」。
  • リポジトリはPlanGen: Towards Unified Layout Planning and Image Generation in Auto-Regressive Vision Language Models

Biomedical Foundation Model: A Survey

  • Biomedical Foundation Model: A Survey [84.3]
    ファンデーションモデルは、広範なラベルなしデータセットから学習する大規模な事前訓練モデルである。 これらのモデルは、質問応答や視覚的理解といった様々な応用に適応することができる。 本研究は,生物医学分野における基礎モデルの可能性を探るものである。
    論文  参考訳(メタデータ)   (Mon, 03 Mar 2025 22:42:00 GMT)
  • 生物学、医学分野の基盤モデルのサーベイ、主な対象は「computational biology, drug development, clinical informatics, medical imaging, and public health」

Transformers without Normalization 

  • Transformers without Normalization [58.8]
    トランスフォーマーの正規化レイヤのドロップイン置換として、DyT($x$) = tanh(alpha $x$)$という要素演算式であるDynamic Tanh(DyT)を導入する。 我々は、認識から生成、教師付き学習、教師付き学習、コンピュータビジョンから言語モデルまで、様々な環境において、DyTを用いたトランスフォーマーの有効性を検証する。
    論文  参考訳(メタデータ)   (Thu, 13 Mar 2025 17:59:06 GMT)
  • 「We introduce Dynamic Tanh (DyT), an element-wise operation DyT(x) = tanh(αx), as a drop-in replacement for normalization layers in Transformers.」とのこと。知見として興味深く、「DyT improves training and inference speed, making it a candidate for efficiency-oriented network design.」と計算コスト的にも有利とのこと。

Simulating the Real World: A Unified Survey of Multimodal Generative Models

  • Simulating the Real World: A Unified Survey of Multimodal Generative Models [48.4]
    実世界のシミュレーションにおいて,データ次元の進行を調査する多モード生成モデルについて統一的な調査を行う。 我々の知る限りでは、これは単一のフレームワーク内で2D、ビデオ、3D、および4D生成の研究を体系的に統一する最初の試みである。
    論文  参考訳(メタデータ)   (Thu, 06 Mar 2025 17:31:43 GMT)
  • 生成AIが実世界をシミュレーションにつながるかは議論が分かれるが、「In this survey, we present a unified survey for multimodal generative models that investigate the progression of data dimensionality in real-world simulation.」というサーベイ。
  • 様々な研究は進むもののハードルはかなり高い印象。