- Debate Helps Weak-to-Strong Generalization [68.7]
我々は,強い事前訓練モデルを用いて人間の監督を改善する方法について検討し,弱い人間の監督を増強した強いモデルを監督する。 議論は、信頼できない強力なモデルから信頼できる情報を抽出する弱いモデルを支援することができる。 OpenAIの弱いNLPベンチマークの実験では、組み合わせアプローチがアライメントを改善することが示されている。
論文 参考訳(メタデータ) (Tue, 21 Jan 2025 05:36:13 GMT) - 「Specifically, we investigate ways of improving human supervision with a strong pretrained model and then supervise the strong model with enhanced weak human supervision.」という話で興味深いが、「humans will only be able to weakly supervise superhuman models」という危機感が時期尚早でもなさそうなのが・・・。
月: 2025年1月
Deepseek R1、Sky-T1、TinyZero、Kimi k1.5
先週も大きなニュースが多かった。特にDeepSeek R1は非常に高い性能のLarge Reasoning Modelであり、しかも、オープンなモデルであることが衝撃的だった。Deepseek R1 Zeroは強化学習によって性能を上げていることも特徴的である。Kimi k1.5も近い発想で構築されたモデルで強化学習の有効性を示しているように見える。
DeepSeek R1の過程で構築したデータを用いQwenやLlamaを強化したモデルも大きく性能を上げているのが驚き。蒸留が許可されているライセンスであり、合成データを構築する元モデルとしても有力そう。
o1ライクなオープンモデルとしてはSky-T1: Train your own O1 preview model within $450やGitHub – Jiayi-Pan/TinyZero(XユーザーのJiayi Panさん: 「We reproduced DeepSeek R1-Zero in the CountDown game, and it just works Through RL, the 3B base LM develops self-verification and search abilities all on its own You can experience the Ahah moment yourself for < $30 Code: https://t.co/B2IsN1PrXV Here’s what we learned 🧵 https://t.co/43BVYMmS8X」 / X)も興味深い。
それ以外にもOpenAI Operator(Introducing Operator research preview | OpenAI)はGUIエージェントの萌芽を感じさせる。
オープンモデルの盛り上がりの中、OpenAIがLLMコアだけではなく周辺領域に手を出そうとしているようにも見えて面白い。
- DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning [147.2]
第一世代の推論モデルであるDeepSeek-R1-ZeroとDeepSeek-R1を紹介します。 DeepSeek-R1-Zeroは大規模な強化学習を通じて訓練されている。 DeepSeek-R1は、RLの前にマルチステージトレーニングとコールドスタートデータを組み込んでいる。
論文 参考訳(メタデータ) (Wed, 22 Jan 2025 15:19:35 GMT)
- Kimi k1.5: Scaling Reinforcement Learning with LLMs [84.2]
我々は、強化学習で訓練された最新のマルチモーダル言語モデル、Kimi k1.5の訓練実践について報告する。 長いコンテキストスケーリングと改善されたポリシー最適化手法が、我々のアプローチの鍵となる要素である。 本システムは,複数のベンチマークやモダリティに対して,最先端の推論性能を実現する。
論文 参考訳(メタデータ) (Wed, 22 Jan 2025 02:48:14 GMT)
Generative Retrieval for Book search
- Generative Retrieval for Book search [106.7]
書籍検索のための効率的な生成検索フレームワークを提案する。 データ拡張とアウトライン指向の書籍エンコーディングの2つの主要コンポーネントがある。 プロプライエタリなBaiduデータセットの実験では、GBSが強力なベースラインを上回ることが示されている。
論文 参考訳(メタデータ) (Sun, 19 Jan 2025 12:57:13 GMT) - 「We have introduced and evaluated GBS, a generative retrieval framework designed specifically for book search.」とある通り、業務に特化された検索フレームワークで問題の分割方針と取り扱いの方針が勉強になる。
- この論文の図1は「Books mainly consist of three types of information: (1) metadata, which includes details like the title, author, and publisher; (2) the main text, which constitutes the core content of the book; and (3) the outline, which shows the hierarchical structure and relationships between the chapters and sections.」であるが、対象をどう見るかというのはLLM全盛の今においても、非常に重要。
Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models
- Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models [33.1]
大規模言語モデル(LLM)は、複雑な推論タスクに対処するためにそれらを活用することに大きな研究の関心を呼んだ。 最近の研究は、LLMがテスト時間推論中により多くのトークンで”考える”ことを奨励することは、推論の精度を著しく向上させることを示した。 OpenAIのo1シリーズの導入は、この研究の方向性において重要なマイルストーンである。
論文 参考訳(メタデータ) (Thu, 16 Jan 2025 17:37:58 GMT) - OpenAI o1ライクなモデル、Large Reasoning Modelsのサーベイ。「We begin by introducing the foundational background of LLMs and then explore the key technical components driving the development of large reasoning models, with a focus on automated data construction, learning-to-reason techniques, and test-time scaling.」とある通り包括的な内容。
- 下記でも思ったが本当に進展が速い
- O1 Replication Journey — Part 3: Inference-time Scaling for Medical Reasoning [27.8]
この研究は、医学的推論タスクのための大規模言語モデル(LLM)における推論時間スケーリングの可能性を探るものである。 500サンプルを適度にトレーニングすることで,本モデルでは6%-11%の性能向上を実現した。
論文 参考訳(メタデータ) (Sat, 11 Jan 2025 07:10:23 GMT) - プロジェクトサイトはGitHub – SPIRAL-MED/Ophiuchus
IntellAgent: A Multi-Agent Framework for Evaluating Conversational AI Systems
- IntellAgent: A Multi-Agent Framework for Evaluating Conversational AI Systems [2.3]
IntellAgentは、対話型AIシステムを評価するためのスケーラブルでオープンソースのフレームワークである。 IntellAgentは、ポリシー駆動グラフモデリング、リアルイベント生成、対話型ユーザエージェントシミュレーションを組み合わせることで、合成ベンチマークの作成を自動化する。 我々の研究は、IntellAgentが、研究と展開の橋渡しの課題に対処することで、会話AIを前進させるための効果的なフレームワークであることを示した。
論文 参考訳(メタデータ) (Sun, 19 Jan 2025 14:58:35 GMT) - 対話型AIの評価フレームワーク
- リポジトリはGitHub – plurai-ai/intellagent: A framework for comprehensive diagnosis and evaluation of conversational agents using simulated, realistic synthetic interactions
OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning
- OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning [72.6]
テキスト認識のための大規模バイリンガルテキスト中心ベンチマークであるOCRBench v2を紹介する。 その結果,22 LMM中20 LMMは50点未満(合計100点)で,5種類の制限があることがわかった。
論文 参考訳(メタデータ) (Tue, 31 Dec 2024 07:32:35 GMT) - MLLMを対象としたOCRベンチマーク、「After carefully benchmarking state-of-the-art LMMs on OCRBench v2, we find that 36 out of 38 LMMs score below 50 (100 in total) and suffer from five-type limitations, including less frequently encountered text recognition, finegrained perception, layout perception, complex element parsing, and logical reasoning.」とのこと。
- リポジトリはhttps://github.com/YuliangLiu/MultimodalOCR
Benchmarking Large and Small MLLMs
- Benchmarking Large and Small MLLMs [71.8]
大規模なマルチモーダル言語モデル(MLLM)は、マルチモーダルコンテンツの理解と生成において顕著な進歩を遂げている。 しかし、そのデプロイメントは、遅い推論、高い計算コスト、デバイス上のアプリケーションに対する非現実性など、重大な課題に直面している。 LLavaシリーズモデルとPhi-3-Visionによって実証された小さなMLLMは、より高速な推論、デプロイメントコストの削減、ドメイン固有のシナリオを扱う能力を備えた有望な代替手段を提供する。
論文 参考訳(メタデータ) (Sat, 04 Jan 2025 07:44:49 GMT) - MLLMの包括的評価。
- 「GPT-4o establishes a new standard for multimodal understanding and reasoning across diverse input types, setting a benchmark in versatility and cognitive capacity.」のほか、「Although LLaVA-NeXT and Phi-3-Vision excel in specialized recognition tasks, they exhibit limitations in advanced reasoning and temporal sequence processing.」とのこと。
- MSの調査でもあり、Phi4でのアップデートにも期待。microsoft/phi-4 · Hugging Face
Foundations of Large Language Models
- Foundations of Large Language Models [50.0]
本書は4つの主要な章で構成されており、それぞれが事前学習、生成モデル、プロンプト技術、アライメント方法という重要な領域を探求している。 自然言語処理や関連分野の大学生、専門家、実践者を対象としている。
論文 参考訳(メタデータ) (Thu, 16 Jan 2025 01:03:56 GMT) - 200ページ超でLLMの教科書という内容。
- ライセンスはDeed – Attribution-NonCommercial 4.0 International – Creative Commons で商用利用できない点に注意が必要。
Benchmark Evaluations, Applications, and Challenges of Large Vision Language Models: A Survey
- Benchmark Evaluations, Applications, and Challenges of Large Vision Language Models: A Survey [6.7]
VLM(Multimodal Vision Language Models)は、コンピュータビジョンと自然言語処理の交差点において、トランスフォーメーション技術として登場した。 VLMは、視覚的およびテキスト的データに対して強力な推論と理解能力を示し、ゼロショット分類において古典的な単一モダリティ視覚モデルを上回る。
論文 参考訳(メタデータ) (Sat, 04 Jan 2025 04:59:33 GMT) - 「we provide a systematic overview of VLMs in the following aspects: [1] model information of the major VLMs developed over the past five years (2019-2024); [2] the main architectures and training methods of these VLMs; [3] summary and categorization of the popular benchmarks and evaluation metrics of VLMs; [4] the applications of VLMs including embodied agents, robotics, and video generation; [5] the challenges and issues faced by current VLMs such as hallucination, fairness, and safety.」とVLMのサーベイ。
- リポジトリはGitHub – zli12321/VLM-surveys: A most Frontend Collection and survey of vision-language model papers, and models GitHub repository
Open Problems in Machine Unlearning for AI Safety
- Open Problems in Machine Unlearning for AI Safety [61.4]
特定の種類の知識を選択的に忘れたり、抑圧したりするマシンアンラーニングは、プライバシとデータ削除タスクの約束を示している。 本稿では,アンラーニングがAI安全性の包括的ソリューションとして機能することを防止するための重要な制約を特定する。
論文 参考訳(メタデータ) (Thu, 09 Jan 2025 03:59:10 GMT) - 重要技術ではあるが実用化に至っていない雰囲気のあるMachine unlearningに関するサーベイ。主に課題面にフォーカスしている。
- 結論の「Current approaches to neural-level interventions often produce unintended effects on broader model capabilities, adding practical challenges to selective capability control, while the difficulty of verifying unlearning success and robustness against relearning raises additional concerns. Furthermore, unlearning interventions can create tensions with existing safety mechanisms, potentially affecting their reliability.」は現状を端的に表している。。。