LLM Post-Training: A Deep Dive into Reasoning Large Language Models

  • LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.1]
    大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。 ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
    論文  参考訳(メタデータ)   (Fri, 28 Feb 2025 18:59:54 GMT)
  • LRMでも注目されるPost training関連のサーベイ、Fine-tuning, Reinforcement Learning, Test-time Scalingが大きなキーワード。
  • リポジトリはGitHub – mbzuai-oryx/Awesome-LLM-Post-training: Awesome Reasoning LLM Tutorial/Survey/Guide

A Survey of Model Architectures in Information Retrieval 

  • A Survey of Model Architectures in Information Retrieval [64.8]
    機能抽出のためのバックボーンモデルと、関連性推定のためのエンドツーエンドシステムアーキテクチャの2つの重要な側面に焦点を当てる。 従来の用語ベースの手法から現代のニューラルアプローチまで,特にトランスフォーマーベースのモデルとそれに続く大規模言語モデル(LLM)の影響が注目されている。 我々は、パフォーマンスとスケーラビリティのアーキテクチャ最適化、マルチモーダル、マルチランガルデータの処理、従来の検索パラダイムを超えた新しいアプリケーションドメインへの適応など、新たな課題と今後の方向性について議論することで結論付けた。
    論文  参考訳(メタデータ)   (Thu, 20 Feb 2025 18:42:58 GMT)
  • LLMの影響を受け、また、LLM時代で重要性増すInformation Retrievalのサーベイ
  • 結論の「Information retrieval modeling has evolved from simple term matching to complex neural networks and LLM-driven approaches, significantly improving search capabilities. Key challenges ahead include balancing computational efficiency with performance, handling diverse data types, maintaining faithfulness and trustworthiness, and integrating with emerging technologies like autonomous agents.」はその通りと思う。

Generative Models in Decision Making: A Survey 

  • Generative Models in Decision Making: A Survey [63.7]
    生成モデルは、高逆状態反応領域や中間部分ゴールへエージェントを誘導する軌道を生成することによって意思決定システムに組み込むことができる。 本稿では,意思決定タスクにおける生成モデルの適用について概説する。
    論文  参考訳(メタデータ)   (Mon, 24 Feb 2025 12:31:28 GMT)
  • 生成モデル(Energy Based Models (EBMs), Generative Adversarial Networks (GANs), Variational Autoencoders (VAEs), Normalizing Flow (NFs), Diffusion Models (DMs), GFlowNets (GFNs), and Autoregressive Models (AMs).)と意思決定のサーベイ。アプリケーションは「robot control, autonomous driving, games, structural generation, and optimization.」を想定。

An Overview of Large Language Models for Statisticians 

  • An Overview of Large Language Models for Statisticians [109.4]
    大規模言語モデル(LLM)は人工知能(AI)の変換ツールとして登場した。 本稿では, 統計学者がLLMの開発に重要な貢献できる可能性について考察する。 我々は不確実性定量化、解釈可能性、公正性、プライバシー、透かし、モデル適応といった問題に焦点を当てる。
    論文  参考訳(メタデータ)   (Tue, 25 Feb 2025 03:40:36 GMT)
  • LLMと統計学に関するサーベイ。教科書的な内容。
  • 利用者目線だと「LLM-Empowered Statistical Analysis」が興味深い。

Toward Robust Non-Transferable Learning: A Survey and Benchmark

  • Toward Robust Non-Transferable Learning: A Survey and Benchmark [51.5]
    非伝達学習(NTL)は、ディープラーニングモデルの一般化能力を再構築することを目的とした課題である。 NTLの性能とロバスト性を評価する最初のベンチマークであるNTLBenchを紹介する。 我々はNTLの実践的応用と今後の方向性と課題について論じる。
    論文  参考訳(メタデータ)   (Wed, 19 Feb 2025 10:12:19 GMT)
  • 「Its goal is to prevent the model’s generalization to specific target domains or tasks (such as harmful [Rosati et al , 2024; Huang et al , 2024b] or unauthorized domains [Wang et al , 2022b; Si et al , 2024]) while preserving its normal functionality on a source domain.」を目的とするNon-Transferable Learningのサーベイ。
  • ベンチマークを公開予定とのこと。GitHub – tmllab/NTLBench

Code to Think, Think to Code: A Survey on Code-Enhanced Reasoning and Reasoning-Driven Code Intelligence in LLMs

  • Code to Think, Think to Code: A Survey on Code-Enhanced Reasoning and Reasoning-Driven Code Intelligence in LLMs [53.0]
    大規模言語モデル(LLM)では、コードと推論が互いに強化される。 コードは検証可能な実行パスを提供し、論理的な分解を強制し、実行時の検証を可能にする。 我々は,このシナジーを強化するために,重要な課題を特定し,今後の研究方向性を提案する。
    論文  参考訳(メタデータ)   (Wed, 26 Feb 2025 18:55:42 GMT)
  • 「(i) analyzing how code serves as an effective reasoning medium, helping LLMs structure their reasoning and validate results (§2); (ii) exploring how enhanced reasoning capabilities expand the boundaries of code intelligence (§3); (iii) summarizing current challenges, focusing on open problems in model interpretability, scalable training, and multimodal fusion, while proposing future research directions」というサーベイ。
  • コードと論理的推論の相乗効果というのが面白いが、人間でも同じかもしれないと思わなくもない。
  • Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs [3.8]
    実験では、モデルを微調整して安全でないコードを出力し、それをユーザに開示する。 結果として得られるモデルは、コーディングとは無関係な幅広いプロンプトに対して不一致に作用する。 この効果は様々なモデルで観測されるが、GPT-4oやQwen2.5-Coder-32B-Instructでは最も強い。
    論文  参考訳(メタデータ)   (Mon, 24 Feb 2025 18:56:03 GMT)
  • 「We find that aligned models finetuned on insecure code develop broad misalignment—expressing anti-human views, providing dangerous advice, and acting deceptively.」という結果で興味深い。上記サーベイにも関連しているように思える。

A Survey on Large Language Models for Automated Planning / Beyond Self-Talk: A Communication-Centric Survey of LLM-Based Multi-Agent Systems [

  • A Survey on Large Language Models for Automated Planning [15.8]
    自動計画における大規模言語モデルの利用に関する既存の研究を批判的に調査する。 これらの制限のため、LCMは独立したプランナーとして機能するには適していないが、他のアプローチと組み合わせることで、計画アプリケーションを強化する大きな機会を提供する。
    論文  参考訳(メタデータ)   (Tue, 18 Feb 2025 02:11:03 GMT)
  • LLMを用いた自動計画に関するサーベイ
  • エージェントでは必須の能力であるが、このテーマでのサーベイは貴重
  • Beyond Self-Talk: A Communication-Centric Survey of LLM-Based Multi-Agent Systems [11.5]
    大規模言語モデル(LLM)は、最近、推論、計画、意思決定において顕著な能力を示した。 研究者はLLMをマルチエージェントシステムに組み込んで、単一エージェント設定の範囲を超えてタスクに取り組むようになった。 この調査はさらなるイノベーションの触媒として機能し、より堅牢でスケーラブルでインテリジェントなマルチエージェントシステムを促進する。
    論文  参考訳(メタデータ)   (Thu, 20 Feb 2025 07:18:34 GMT)
  • マルチエージェント、コミュニケーションに軸足を置いたサーベイ。

From Selection to Generation: A Survey of LLM-based Active Learning

  • From Selection to Generation: A Survey of LLM-based Active Learning [153.8]
    大きな言語モデル(LLM)は、全く新しいデータインスタンスを生成し、よりコスト効率の良いアノテーションを提供するために使われています。 本調査は,LLMに基づくAL手法の直感的な理解を目指して,研究者や実践者の最新のリソースとして機能することを目的としている。
    論文  参考訳(メタデータ)   (Mon, 17 Feb 2025 12:58:17 GMT)
  • LLM時代のアクティブラーニング。「In this survey, we present an intuitive taxonomy of LLM-based Active Learning, detailing how LLMs can act as sample selectors, data generators, and annotators within the AL loop.」という整理。

Logical Reasoning in Large Language Models: A Survey

  • Logical Reasoning in Large Language Models: A Survey [17.1]
    大規模言語モデル(LLM)における論理的推論の最近の進歩を合成する。 LLMにおける論理的推論の範囲、理論的基礎、および推論の習熟度を評価するために使用されるベンチマークについて概説する。 このレビューは、AIシステムにおける論理的推論を強化するためのさらなる調査の必要性を強調し、今後の方向性を結論付けている。
    論文  参考訳(メタデータ)   (Thu, 13 Feb 2025 09:19:14 GMT)
  • 「This survey synthesizes the rapid advancements and persistent challenges in logical reasoning for large language models (LLMs).」と、急速に発展しているLLMにおける論理的推論に関するサーベイ

A Survey on Data-Centric AI: Tabular Learning from Reinforcement Learning and Generative AI Perspective 

  • A Survey on Data-Centric AI: Tabular Learning from Reinforcement Learning and Generative AI Perspective [23.3]
    タブラルデータ(Tabular data)は、バイオインフォマティクス、医療、マーケティングなど、さまざまな領域で広く使われているデータフォーマットの1つである。 本調査では,データ空間を精製するための基本技術として,強化学習(RL)と特徴選択と特徴生成のための生成的アプローチについて検討する。 我々は,既存の課題を要約し,今後の研究の方向性について論じ,この分野の継続的なイノベーションを促進する洞察を提供することを目的とする。
    論文  参考訳(メタデータ)   (Wed, 12 Feb 2025 22:34:50 GMT)
  • 「Tabular data-centric AI is evolving with RL-based optimization and generative modeling playing a key role in feature engineering.」とのこと。現状でも重要性が下がっていないテーブルデータに対してRL系の最適化や生成AI活用などをサーベイした論文。

不均衡データに対するサーベイも出ていた。こちらも過去から重要な視点。

  • A Comprehensive Survey on Imbalanced Data Learning [45.3]
    不均衡なデータは、さまざまな種類の生データに広まっており、機械学習のパフォーマンスを妨げる。 本調査は,様々な実世界のデータ形式を体系的に分析する。 さまざまなデータフォーマットに関する既存の研究は、データ再バランス、特徴表現、トレーニング戦略、アンサンブル学習の4つのカテゴリにまとめられている。
    論文  参考訳(メタデータ)   (Thu, 13 Feb 2025 04:53:17 GMT)