Alignment – arXiv最新論文の紹介

Better Alignment with Instruction Back-and-Forth Translation

Better Alignment with Instruction Back-and-Forth Translation [120.2]
本稿では,世界知識を基盤とした高品質な合成データを構築するために,バック・アンド・フォース・トランスフォーメーション(back-and-forth translation)という新たな手法を提案する。ウェブコーパスから文書が与えられた場合、Liらによって提案されたバックトランスレーション手法を用いて合成命令を生成し、キュレートする。我々は,Web上の情報多様性と量を活用しながら,効果的なアライメントに必要な応答の品質を確保しながら,両世界の長所を組み合わさっていることを発見した。
論文参考訳（メタデータ） (Thu, 08 Aug 2024 17:42:32 GMT)
アライメントを対象とした合成データ構築
backtranslation modelの構築、Filtering、Rewritingという流れ。「Overall we find that step (3) Rewriting is more effective compared to (2) Filtering, though using both offers complementary performance benefits.」というのも興味深い記述。

A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More

A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More [16.5]
大規模言語モデル(LLM)は、人間のクエリに対する事実的かつ一貫性のある応答を生成することができる。しかし、学習データの混合品質は、望ましくない応答を発生させる可能性がある。
論文参考訳（メタデータ） (Tue, 23 Jul 2024 06:45:52 GMT)
アライメント手法に関するサーベイで、salesforceのチームによる包括的なもの
「Over the past two years, various methods have been proposed from different perspectives to enhance LLMs, particularly in aligning them with human expectation.」とある通り、近年急速に研究が進む（というよりは少し前から出来上がってきた）分野

Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment

Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment [103.1]
従来のアライメント戦略は人間の介入に大きく依存しており、例えばSupervised Fine-Tuning(SFT)やReinforcement Learning from Human Feedback(RLHF)などである。本稿では、AlignCoTと呼ばれる思考の連鎖(CoT)アプローチを利用した新しい自己アライメント手法を提案する。本稿では、AlignCoTプロセスの各コンポーネントを強化するために専門家の混合を適用し、アライメント効率を著しく向上させるMoTEアーキテクチャについて紹介する。
論文参考訳（メタデータ） (Wed, 03 Jul 2024 15:04:25 GMT)
CoT的手法を用いた自己アライメント手法ALignCoT とさらにそれを効率化するMoTE（Mixture of insighTful Experts）の提案。
「Safety alignment is essential for LLMs.Existing approaches like SFT and RLHF rely extensively on human annotation, whereas self-alignment strategies depend on LLMs’ emergent abilities.」はそうなんだろうと思うのだけど、強力な自己アライメント手法が安全につながるのかはどうなんだろう。。。

Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions

Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.7]
近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。
論文参考訳（メタデータ） (Thu, 13 Jun 2024 16:03:25 GMT)
AI アライメントに関するサーベイで400以上の文献を調査した包括的なもの。Overall Author List and Contributions からの幅広い分野の方が調査に参加している。
個人的には「Challenge 3: Safeguarding Co-adaptation」の「As advanced AI systems become increasingly complex, they present greater challenges for human interpretation and control. To address this, it is crucial to empower humans to detect and interpret AI misconduct on instrumental actions towards accomplishing its final goals.」が興味深かった。未来的ではあるが、本当に制御できるのか若干疑問。

The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights

The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.4]
本稿では,大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメント手法を提案する。実験結果から,質問アライメント手法は多様な推論シナリオにおける多言語のパフォーマンス向上に有効であることが示唆された。その成功のメカニズムを理解するために、表現空間、チェーン・オブ・シンク、翻訳データスケールを分析する。
論文参考訳（メタデータ） (Thu, 02 May 2024 14:49:50 GMT)
多言語性能を上げるための２段階のアライメント手法（ question alignment and response alignment）の提案。さらに「En-X translation training can implicitly bias LLM to generate non-English chain-of-thought and increase the question-response language consistency.」とのこと。分析や解釈も面白い。
リポジトリはGitHub – NJUNLP/QAlign

On the Essence and Prospect: An Investigation of Alignment Approaches for Big Models

On the Essence and Prospect: An Investigation of Alignment Approaches for Big Models [77.9]
ビッグデータはAIの分野で画期的なブレークスルーを達成したが、潜在的な懸念を生じさせるかもしれない。このような懸念に対処するため、これらのモデルを人間の嗜好や価値観に適合させるアライメント技術が導入された。過去1年間にかなりの進歩があったにもかかわらず、最適アライメント戦略の確立には様々な課題がある。
論文参考訳（メタデータ） (Thu, 7 Mar 2024 04:19:13 GMT)
アライメントのサーベイ、と同時にLLMの急速な進化が感じられる。

Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision

Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision [99.0]
現在のAIアライメント手法は、人間が提供する実演や判断に依存している。彼らの能力が人間のレベルを超えたとき、システムを改善するにはどうすればよいのか?
論文参考訳（メタデータ） (Thu, 14 Mar 2024 15:12:38 GMT)
The Unreasonable Effectiveness of Easy Training Data for Hard Tasks – arXiv最新論文の紹介 (devneko.jp)でも取り上げられていた話だが、PRMs(process reward models)やOPRMs(Outcome & Process Reward Model)を用いるとさらに有効とのこと。
AGIやASIという話を聞くにこのような手法の重要性が高まっているように思う（一方で結論にある「This approach presents a promising direction for developing AI systems capable of surpassing human problem-solving capabilities」のように人間がEasy側に位置づけられるのは複雑な思いもある）
リポジトリはEdward-Sun/easy-to-hard (github.com)

Navigating the OverKill in Large Language Models

Navigating the OverKill in Large Language Models [84.6]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。以上の結果から,モデル内にショートカットが存在することが明らかとなり,”キル”のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文参考訳（メタデータ） (Wed, 31 Jan 2024 07:26:47 GMT)
LLMは「kill」のような単語に過剰反応し性能を落とすことがあり、その対策方法の提案。安全性を高める取り組みが過剰反応を引き起こすことはありそうで面白い。
リポジトリはInvokerStark/OverKill (github.com)

Self-Rewarding Language Models

Self-Rewarding Language Models [84.7]
言語モデル自体がLLM-as-a-Judgeを介して使用される自己回帰言語モデルについて検討し、学習中に独自の報酬を提供する。反復型DPOトレーニングでは,指導の追従能力が向上するだけでなく,高品質な報酬をそれ自体に提供する能力も向上することを示す。
論文参考訳（メタデータ） (Thu, 18 Jan 2024 14:43:47 GMT)
自分でInstructionを生成、評価しDPO（Fugu-MT 論文翻訳(概要): Direct Preference Optimization: Your Language Model is Secretly a Reward Model (fugumt.com)）するプロセスの提案。3イテレーションでClaude 2, Gemini Pro, GPT-4 0613をアウトパフォーム。
ReST meets ReAct – arXiv最新論文の紹介 (devneko.jp)の時も思ったが自己改善の動きで面白い。与えた情報を使いつくしていないが故の動きなのか、（さすがにまだなさそうだけど）新たな情報を生み出せているのかなど興味深い。

Alignment for Honesty

Alignment for Honesty [113.4]
我々は、正直に整合することの重要性を主張し、言語モデルが知識が欠如している場合に、積極的に質問に答えることを拒否します。この課題は、メトリクス開発、ベンチマーク作成、トレーニングという観点で包括的なソリューションを必要とする。正直さを強調する複数の効率的な微調整技術によってさらにインスタンス化されるフレキシブルなトレーニングフレームワークを導入する。
論文参考訳（メタデータ） (Tue, 12 Dec 2023 06:10:42 GMT)
分からないときは分からない（質問に答えない）ようにするフレームワークの提案。メトリクスの定義や検証など参考になる点も多い。
リポジトリはGitHub – GAIR-NLP/alignment-for-honesty

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31