Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models

  • Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models [33.1]
    大規模言語モデル(LLM)は、複雑な推論タスクに対処するためにそれらを活用することに大きな研究の関心を呼んだ。 最近の研究は、LLMがテスト時間推論中により多くのトークンで”考える”ことを奨励することは、推論の精度を著しく向上させることを示した。 OpenAIのo1シリーズの導入は、この研究の方向性において重要なマイルストーンである。
    論文  参考訳(メタデータ)   (Thu, 16 Jan 2025 17:37:58 GMT)
  • OpenAI o1ライクなモデル、Large Reasoning Modelsのサーベイ。「We begin by introducing the foundational background of LLMs and then explore the key technical components driving the development of large reasoning models, with a focus on automated data construction, learning-to-reason techniques, and test-time scaling.」とある通り包括的な内容。
  • 下記でも思ったが本当に進展が速い
  • O1 Replication Journey — Part 3: Inference-time Scaling for Medical Reasoning [27.8]
    この研究は、医学的推論タスクのための大規模言語モデル(LLM)における推論時間スケーリングの可能性を探るものである。 500サンプルを適度にトレーニングすることで,本モデルでは6%-11%の性能向上を実現した。
    論文  参考訳(メタデータ)   (Sat, 11 Jan 2025 07:10:23 GMT)
  • プロジェクトサイトはGitHub – SPIRAL-MED/Ophiuchus

IntellAgent: A Multi-Agent Framework for Evaluating Conversational AI Systems

OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning 

  • OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning [72.6]
    テキスト認識のための大規模バイリンガルテキスト中心ベンチマークであるOCRBench v2を紹介する。 その結果,22 LMM中20 LMMは50点未満(合計100点)で,5種類の制限があることがわかった。
    論文  参考訳(メタデータ)   (Tue, 31 Dec 2024 07:32:35 GMT)
  • MLLMを対象としたOCRベンチマーク、「After carefully benchmarking state-of-the-art LMMs on OCRBench v2, we find that 36 out of 38 LMMs score below 50 (100 in total) and suffer from five-type limitations, including less frequently encountered text recognition, finegrained perception, layout perception, complex element parsing, and logical reasoning.」とのこと。
  • リポジトリはhttps://github.com/YuliangLiu/MultimodalOCR

Benchmarking Large and Small MLLMs 

  • Benchmarking Large and Small MLLMs [71.8]
    大規模なマルチモーダル言語モデル(MLLM)は、マルチモーダルコンテンツの理解と生成において顕著な進歩を遂げている。 しかし、そのデプロイメントは、遅い推論、高い計算コスト、デバイス上のアプリケーションに対する非現実性など、重大な課題に直面している。 LLavaシリーズモデルとPhi-3-Visionによって実証された小さなMLLMは、より高速な推論、デプロイメントコストの削減、ドメイン固有のシナリオを扱う能力を備えた有望な代替手段を提供する。
    論文  参考訳(メタデータ)   (Sat, 04 Jan 2025 07:44:49 GMT)
  • MLLMの包括的評価。
  • 「GPT-4o establishes a new standard for multimodal understanding and reasoning across diverse input types, setting a benchmark in versatility and cognitive capacity.」のほか、「Although LLaVA-NeXT and Phi-3-Vision excel in specialized recognition tasks, they exhibit limitations in advanced reasoning and temporal sequence processing.」とのこと。
  • MSの調査でもあり、Phi4でのアップデートにも期待。microsoft/phi-4 · Hugging Face

Foundations of Large Language Models

  • Foundations of Large Language Models [50.0]
    本書は4つの主要な章で構成されており、それぞれが事前学習、生成モデル、プロンプト技術、アライメント方法という重要な領域を探求している。 自然言語処理や関連分野の大学生、専門家、実践者を対象としている。
    論文  参考訳(メタデータ)   (Thu, 16 Jan 2025 01:03:56 GMT)
  • 200ページ超でLLMの教科書という内容。
  • ライセンスはDeed – Attribution-NonCommercial 4.0 International – Creative Commons で商用利用できない点に注意が必要。

Benchmark Evaluations, Applications, and Challenges of Large Vision Language Models: A Survey

  • Benchmark Evaluations, Applications, and Challenges of Large Vision Language Models: A Survey [6.7]
    VLM(Multimodal Vision Language Models)は、コンピュータビジョンと自然言語処理の交差点において、トランスフォーメーション技術として登場した。 VLMは、視覚的およびテキスト的データに対して強力な推論と理解能力を示し、ゼロショット分類において古典的な単一モダリティ視覚モデルを上回る。
    論文  参考訳(メタデータ)   (Sat, 04 Jan 2025 04:59:33 GMT)
  • 「we provide a systematic overview of VLMs in the following aspects: [1] model information of the major VLMs developed over the past five years (2019-2024); [2] the main architectures and training methods of these VLMs; [3] summary and categorization of the popular benchmarks and evaluation metrics of VLMs; [4] the applications of VLMs including embodied agents, robotics, and video generation; [5] the challenges and issues faced by current VLMs such as hallucination, fairness, and safety.」とVLMのサーベイ。
  • リポジトリはGitHub – zli12321/VLM-surveys: A most Frontend Collection and survey of vision-language model papers, and models GitHub repository

Open Problems in Machine Unlearning for AI Safety

  • Open Problems in Machine Unlearning for AI Safety [61.4]
    特定の種類の知識を選択的に忘れたり、抑圧したりするマシンアンラーニングは、プライバシとデータ削除タスクの約束を示している。 本稿では,アンラーニングがAI安全性の包括的ソリューションとして機能することを防止するための重要な制約を特定する。
    論文  参考訳(メタデータ)   (Thu, 09 Jan 2025 03:59:10 GMT)
  • 重要技術ではあるが実用化に至っていない雰囲気のあるMachine unlearningに関するサーベイ。主に課題面にフォーカスしている。
  • 結論の「Current approaches to neural-level interventions often produce unintended effects on broader model capabilities, adding practical challenges to selective capability control, while the difficulty of verifying unlearning success and robustness against relearning raises additional concerns. Furthermore, unlearning interventions can create tensions with existing safety mechanisms, potentially affecting their reliability.」は現状を端的に表している。。。

Towards Best Practices for Open Datasets for LLM Training 

  • Towards Best Practices for Open Datasets for LLM Training [21.4]
    多くのAI企業は、著作権所有者の許可なく、データ上で大きな言語モデル(LLM)をトレーニングしています。 創造的なプロデューサーは、いくつかの著名な著作権訴訟を引き起こした。 データ情報を制限するこの傾向は、透明性、説明責任、革新を妨げることによって害をもたらす。
    論文  参考訳(メタデータ)   (Tue, 14 Jan 2025 17:18:05 GMT)
  • 学習等に使用するデータセットを選ぶベストプラクティスの整理、「The permissibility of doing so varies by jurisdiction: in countries like the EU and Japan, this is allowed under certain restrictions, while in the United States, the legal landscape is more ambiguous.」とはあるが日本でもとても大事な内容。

BoxingGym: Benchmarking Progress in Automated Experimental Design and Model Discovery

  • BoxingGym: Benchmarking Progress in Automated Experimental Design and Model Discovery [24.6]
    実験的な設計とモデル発見を評価するための10環境のベンチマークであるBoxingGymを紹介する。 予測情報ゲイン(EIG)は,実験が生成モデルのパラメータの不確実性をどの程度低減するかを測定する情報理論量である。 GPT-4oのような現在のLLMは、実験的な設計とモデル発見の両方に苦戦している。
    論文  参考訳(メタデータ)   (Thu, 02 Jan 2025 21:15:57 GMT)
  • LLMによる実験計画・モデル発見のベンチマーク
  • リポジトリはGitHub – kanishkg/boxing-gym at v0.1.0-beta

GameFactory: Creating New Games with Generative Interactive Videos 

  • GameFactory: Creating New Games with Generative Interactive Videos [33.0]
    本稿では,ゲームビデオ生成におけるシーンの一般化を探求するフレームワークであるGameFactoryを紹介する。 オープンドメインの一般化を保ちつつ,アクション制御からゲームスタイルの学習を分離する多段階学習戦略を提案する。 フレームワークを拡張して、自動回帰アクション制御可能なゲームビデオ生成を可能にし、無制限のインタラクティブなゲームビデオの作成を可能にします。
    論文  参考訳(メタデータ)   (Tue, 14 Jan 2025 18:57:21 GMT)
  • 「By learning action control from a small-scale first-person Minecraft dataset, this framework can transfer these control abilities to open-domain videos, ultimately allowing the creation of new games within open-domain scenes.」というフレームワーク提案。移動などの操作を反映した動画生成ができるのは面白いのと、これが転送可能ということはある程度モデルの中にその知識がありそうでそちらも興味深い。
  • リポジトリはGameFactory