Code to Think, Think to Code: A Survey on Code-Enhanced Reasoning and Reasoning-Driven Code Intelligence in LLMs

  • Code to Think, Think to Code: A Survey on Code-Enhanced Reasoning and Reasoning-Driven Code Intelligence in LLMs [53.0]
    大規模言語モデル(LLM)では、コードと推論が互いに強化される。 コードは検証可能な実行パスを提供し、論理的な分解を強制し、実行時の検証を可能にする。 我々は,このシナジーを強化するために,重要な課題を特定し,今後の研究方向性を提案する。
    論文  参考訳(メタデータ)   (Wed, 26 Feb 2025 18:55:42 GMT)
  • 「(i) analyzing how code serves as an effective reasoning medium, helping LLMs structure their reasoning and validate results (§2); (ii) exploring how enhanced reasoning capabilities expand the boundaries of code intelligence (§3); (iii) summarizing current challenges, focusing on open problems in model interpretability, scalable training, and multimodal fusion, while proposing future research directions」というサーベイ。
  • コードと論理的推論の相乗効果というのが面白いが、人間でも同じかもしれないと思わなくもない。
  • Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs [3.8]
    実験では、モデルを微調整して安全でないコードを出力し、それをユーザに開示する。 結果として得られるモデルは、コーディングとは無関係な幅広いプロンプトに対して不一致に作用する。 この効果は様々なモデルで観測されるが、GPT-4oやQwen2.5-Coder-32B-Instructでは最も強い。
    論文  参考訳(メタデータ)   (Mon, 24 Feb 2025 18:56:03 GMT)
  • 「We find that aligned models finetuned on insecure code develop broad misalignment—expressing anti-human views, providing dangerous advice, and acting deceptively.」という結果で興味深い。上記サーベイにも関連しているように思える。

A Survey on Large Language Models for Automated Planning / Beyond Self-Talk: A Communication-Centric Survey of LLM-Based Multi-Agent Systems [

  • A Survey on Large Language Models for Automated Planning [15.8]
    自動計画における大規模言語モデルの利用に関する既存の研究を批判的に調査する。 これらの制限のため、LCMは独立したプランナーとして機能するには適していないが、他のアプローチと組み合わせることで、計画アプリケーションを強化する大きな機会を提供する。
    論文  参考訳(メタデータ)   (Tue, 18 Feb 2025 02:11:03 GMT)
  • LLMを用いた自動計画に関するサーベイ
  • エージェントでは必須の能力であるが、このテーマでのサーベイは貴重
  • Beyond Self-Talk: A Communication-Centric Survey of LLM-Based Multi-Agent Systems [11.5]
    大規模言語モデル(LLM)は、最近、推論、計画、意思決定において顕著な能力を示した。 研究者はLLMをマルチエージェントシステムに組み込んで、単一エージェント設定の範囲を超えてタスクに取り組むようになった。 この調査はさらなるイノベーションの触媒として機能し、より堅牢でスケーラブルでインテリジェントなマルチエージェントシステムを促進する。
    論文  参考訳(メタデータ)   (Thu, 20 Feb 2025 07:18:34 GMT)
  • マルチエージェント、コミュニケーションに軸足を置いたサーベイ。

Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path?

  • Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path? [37.1]
    未確認のAI機関は、公共の安全とセキュリティに重大なリスクをもたらす。 これらのリスクが現在のAIトレーニング方法からどのように生じるかについて議論する。 我々は,非エージェント型AIシステムの開発をさらに進めるために,コアビルディングブロックを提案する。
    論文  参考訳(メタデータ)   (Mon, 24 Feb 2025 18:14:15 GMT)
  • 「As we implement agentic AI systems, we should ask ourselves whether and how these less desirable traits will also arise in the artificial setting, especially in the case of anticipated future AI systems with intelligence comparable to humans (often called AGI, for artificial general intelligence) or superior to humans (ASI, for artificial superintelligence).」というASI,AGI+Agenticな状況でとるべき対応についての論文。Yoshua BengioがLead author

Chain of Draft, Tree-of-Debate

  • Chain of Draft: Thinking Faster by Writing Less [37.5]
    Chain of Draft (CoD)は、人間の認知プロセスにインスパイアされた新しいパラダイムである。 CoD はChain-of-Thought (CoT) と精度で一致し、トークンの7.6%しか使用していない。
    論文  参考訳(メタデータ)   (Tue, 25 Feb 2025 19:36:06 GMT)
  • Chain of 〇〇、Chain of Draftの提案。推論ステップのワード(トークン)数を限定するアプローチ
  • 「In CoD, we also asked the model to think step by step. However, the model is asked to limit each reasoning step to five words at most.」とこれでうまくいくもは面白い。
  • Tree-of-Debate: Multi-Persona Debate Trees Elicit Critical Thinking for Scientific Comparative Analysis [27.7]
    本稿では,科学論文をそれぞれの新奇性を議論するペルソナに変換するフレームワークであるTree-of-Debate(ToD)を紹介する。 ToDは議論ツリーを動的に構築し、学術論文の中で独立した新規性議論のきめ細かい分析を可能にする。
    論文  参考訳(メタデータ)   (Thu, 20 Feb 2025 17:43:40 GMT)
  • こちらはTree of 〇〇。「TREE-OF-DEBATE, a structured approach that models papers as personas engaging in a debate to extract their key similarities and differences.」

Self-rewarding correction for mathematical reasoning 

  • Self-rewarding correction for mathematical reasoning [19.5]
    我々は,大規模言語モデル(LLM)の自己回帰的推論について研究する。 LLMは、ステップバイステップの推論を同時に生成し、外部からのフィードバックを伴わない推論時間における出力の正しさを評価する。 本稿では,自己生成データのみを用いて自己回帰推論モデルを構築するための2段階のアルゴリズムフレームワークを提案する。
    論文  参考訳(メタデータ)   (Wed, 26 Feb 2025 23:01:16 GMT)
  • 「self-rewarding reasoning framework for LLMs, which integrates the generator and reward model into a single LLM, enabling autonomous reasoning, evaluation, and correction.」、「self-correction in mathematical reasoning and propose a two-stage framework that relies only on self-generated data.」の提案。
  • リポジトリはGitHub – RLHFlow/Self-rewarding-reasoning-LLM: Recipes to train the self-rewarding reasoning LLMs.

PlanGEN: A Multi-Agent Framework for Generating Planning and Reasoning Trajectories for Complex Problem Solving 

  • PlanGEN: A Multi-Agent Framework for Generating Planning and Reasoning Trajectories for Complex Problem Solving [89.6]
    制約,検証,選択という3つの重要な要素を持つモデルに依存しない,スケーラブルなエージェントフレームワークであるPlanGENを提案する。 具体的には、推論時間アルゴリズムの性能を向上させるために、制約誘導反復検証を提案する。
    論文  参考訳(メタデータ)   (Sat, 22 Feb 2025 06:21:56 GMT)
  • 「PlanGEN comprises three specialized LLM agents: a constraint agent, a verification agent, and a selection agent.」というマルチエージェントフレームワーク。「Further, we introduced a Mixture of Algorithms, an iterative framework that integrates the selection agent (Figure 1) to dynamically choose the best algorithm.」とのことだが、MoAのAがAgentのものと紛らわしい。。
  • Gemini-1.5-Pro, Gemini-2.0-Flash, GPT-4o、それぞれ単一で使うよりも性能が向上しているようでアンサンブル的な効果は出ている。

Time Travel: A Comprehensive Benchmark to Evaluate LMMs on Historical and Cultural Artifacts

  • Time Travel: A Comprehensive Benchmark to Evaluate LMMs on Historical and Cultural Artifacts [65.9]
    TimeTravelは、10つの主要な歴史的地域にわたる266の異なる文化にまたがる10,250のエキスパート認定サンプルのベンチマークである。 TimeTravelは、原稿、アートワーク、碑文、考古学的発見のAIによる分析のために設計されている。 我々は、TimeTravelで現代のAIモデルを評価し、その強みを強調し、改善すべき領域を特定する。
    論文  参考訳(メタデータ)   (Thu, 20 Feb 2025 18:59:51 GMT)
  • 「By integrating AI with historical research, TimeTravel fosters AI-powered tools for historians, archaeologists, researchers, and cultural tourists to extract valuable insights while ensuring technology contributes meaningfully to historical discovery and cultural heritage preservation.」という変わったベンチマークの提案。日本の土偶や勾玉も含まれている。
  • プロジェクトサイトはTimeTravel: A Comprehensive Benchmark to Evaluate LMMs on Historical and Cultural Artifacts

Continuous Diffusion Model for Language Modeling, Energy-Based Diffusion Language Models for Text Generation 

  • Continuous Diffusion Model for Language Modeling [57.4]
    離散データに対する既存の連続拡散モデルは、離散的アプローチと比較して性能が限られている。 本稿では,下層の分類分布の幾何学を組み込んだ言語モデリングのための連続拡散モデルを提案する。
    論文  参考訳(メタデータ)   (Mon, 17 Feb 2025 08:54:29 GMT)
  • ARモデルに匹敵するRiemannian Diffusion Language Model (RDLM),の提案。
  • リポジトリはhttps://github.com/harryjo97/RDLM
  • 画像ではDiffusion Model → Autoregressive modelという流れもありつつ、言語ではDiffusion Modelを使うInception Labs, Mercury Coderが話題になっているのが面白い。
  • Energy-Based Diffusion Language Models for Text Generation [126.2]
    エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。 我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
    論文  参考訳(メタデータ)   (Fri, 28 Feb 2025 08:41:03 GMT)
  • こちらも「Through experiments on both small and large language modeling benchmarks, EDLM demonstrates state-of-the-art performance among diffusion models and approaches the quality of autoregressive models, while offering significant sampling speedup.」を主張。

Claude 3.7, GPT-4.5, Phi-4, Selene

先週も大きなニュースが多く、AnthropicのClaude 3.7 sonnet、OpenAIのGPT-4.5などフラグシップと呼べるモデルの発表が相次いだ。

Claude 3.7はLLM&LRMというようなモデルでコード生成で高い性能を発揮している。Claude 3.7 Sonnet and Claude Code \ Anthropic

GPT-4.5は巨大・高性能なLLMという印象GPT-4.5 が登場 | OpenAI。LRMでは解きにくい領域ではとても有効そう。ベンチマーク個別では同じLLMのDeepseek V3に負けているものがあり(GitHub – deepseek-ai/DeepSeek-V3のAIME 2024やSWE Verified)、OpenAI一強時代の終わりを感じさせる結果になっている。

このような中、MicrosoftのPhi-4シリーズでも新たなモデルが公開されているWelcome to the new Phi-4 models – Microsoft Phi-4-mini & Phi-4-multimodal。小型モデルでも十分な性能が出ているように見える。

Frontier AI needs frontier evaluators. Meet Selene.など、強力なevaluatorなどLLMやLRMを補完する動きも興味深い。

LLM, LRM, SLMやチューニング、ハイブリッド構成など様々なアプローチがあり、モデルの選択肢も増え、何を選択していくべきか悩む時代になったのかなという印象。

  • Atla Selene Mini: A General Purpose Evaluation Model [2.9]
    我々はSLMJ(Small-as-a-judge)の最先端の小型言語であるAtla Selene Miniを紹介した。 Selene Miniは、全体的なパフォーマンスにおいて最高のSLMJとGPT-4o-miniより優れた汎用評価器である。 RewardBenchで最も高い8B生成モデルである。
    論文  参考訳(メタデータ)   (Mon, 27 Jan 2025 15:09:08 GMT)
  • 上述のEvaluaterチームの論文
  • Phi-4-Mini Technical Report: Compact yet Powerful MultimodalLanguage Models via Mixture-of-LoRAs
    Phi-4MiniとPhi-4-Multimodal、コンパクトで高機能な言語とマルチモーダルモデルを紹介します。Phi-4-Miniは、高品質なウェブおよび合成データに基づいて訓練された3.8ビリオンパラメータ言語モデルである。Phi-4-Multimodalは、テキスト、視覚、音声/音声入力モダリティを単一のモデルに統合するマルチモーダルモデルである。
  • phi_4_mm.tech_report.02252025.pdf · microsoft/Phi-4-multimodal-instruct at main
  • OpenAI GPT-4.5 System Card
    GPT-4.5は事前トレーニングをさらにスケールし、強力なSTEM焦点推論モデルよりも汎用的に設計されている。幅広い知識ベース、ユーザーの意図とのより強固な連携、感情的知性の向上は、執筆、プログラミング、実用的な問題解決といったタスクに適している。
  • OpenAI GPT-4.5 System Card | OpenAI

From Selection to Generation: A Survey of LLM-based Active Learning

  • From Selection to Generation: A Survey of LLM-based Active Learning [153.8]
    大きな言語モデル(LLM)は、全く新しいデータインスタンスを生成し、よりコスト効率の良いアノテーションを提供するために使われています。 本調査は,LLMに基づくAL手法の直感的な理解を目指して,研究者や実践者の最新のリソースとして機能することを目的としている。
    論文  参考訳(メタデータ)   (Mon, 17 Feb 2025 12:58:17 GMT)
  • LLM時代のアクティブラーニング。「In this survey, we present an intuitive taxonomy of LLM-based Active Learning, detailing how LLMs can act as sample selectors, data generators, and annotators within the AL loop.」という整理。