2024年8月7日 – arXiv最新論文の紹介

A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More [16.5]
大規模言語モデル(LLM)は、人間のクエリに対する事実的かつ一貫性のある応答を生成することができる。しかし、学習データの混合品質は、望ましくない応答を発生させる可能性がある。
論文参考訳（メタデータ） (Tue, 23 Jul 2024 06:45:52 GMT)
アライメント手法に関するサーベイで、salesforceのチームによる包括的なもの
「Over the past two years, various methods have been proposed from different perspectives to enhance LLMs, particularly in aligning them with human expectation.」とある通り、近年急速に研究が進む（というよりは少し前から出来上がってきた）分野

Internal Consistency and Self-Feedback in Large Language Models: A Survey [17.5]
大規模言語モデル(LLM)は、正確に応答することが期待されているが、しばしば不十分な推論や幻覚的内容を生成する。理論的枠組みは「内部整合性(internal Consistency)」と呼ばれ、推論の欠如や幻覚の存在といった現象について統一的な説明を提供する。本稿では,自己フィードバック(Self-Feedback)と呼ばれる内部一貫性をマイニングする,合理的かつ効果的な理論的枠組みを提案する。
論文参考訳（メタデータ） (Fri, 19 Jul 2024 17:59:03 GMT)
Self-なんとかに関連するもののサーベイ。「Self-Evaluation」と「 Self-Update」からなる「Self-Feedbackフレームワーク」で考えると整理しやすいのは確か。
リポジトリはGitHub – IAAR-Shanghai/ICSFSurvey: A comprehensive survey on Internal Consistency and Self-Feedback in Large Language Models, including theoretical frameworks, task classifications, evaluation methods, future research directions and more!