A Survey on Post-training of Large Language Models 

  • A Survey on Post-training of Large Language Models [185.5]
    大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。 これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。 本稿では,5つのコアパラダイムにまたがるPoLMの進化を体系的に追跡する,最初の包括的調査について述べる。
    論文  参考訳(メタデータ)   (Sat, 08 Mar 2025 05:41:42 GMT)
  • Fugu-MT 論文翻訳(概要): LLM Post-Training: A Deep Dive into Reasoning Large Language Modelsとは別チームによるPost Traningのサーベイ
  • 「This paper offers the first exhaustive survey of Post-training Language Models (PoLMs), systematically tracing their trajectory from ChatGPT’s alignment origins in 2018 to DeepSeek-R1’s reasoning milestone in 2025, and affirming their transformative influence on reasoning precision, domain adaptability, and ethical integrity.」とある通り、最新の情報を含むサーベイで57ページととても包括的。

LLM Post-Training: A Deep Dive into Reasoning Large Language Models

  • LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.1]
    大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。 ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
    論文  参考訳(メタデータ)   (Fri, 28 Feb 2025 18:59:54 GMT)
  • LRMでも注目されるPost training関連のサーベイ、Fine-tuning, Reinforcement Learning, Test-time Scalingが大きなキーワード。
  • リポジトリはGitHub – mbzuai-oryx/Awesome-LLM-Post-training: Awesome Reasoning LLM Tutorial/Survey/Guide