Better Alignment with Instruction Back-and-Forth Translation 

  • Better Alignment with Instruction Back-and-Forth Translation [120.2]
    本稿では,世界知識を基盤とした高品質な合成データを構築するために,バック・アンド・フォース・トランスフォーメーション(back-and-forth translation)という新たな手法を提案する。 ウェブコーパスから文書が与えられた場合、Liらによって提案されたバックトランスレーション手法を用いて合成命令を生成し、キュレートする。 我々は,Web上の情報多様性と量を活用しながら,効果的なアライメントに必要な応答の品質を確保しながら,両世界の長所を組み合わさっていることを発見した。
    論文  参考訳(メタデータ)   (Thu, 08 Aug 2024 17:42:32 GMT)
  • アライメントを対象とした合成データ構築
  • backtranslation modelの構築、Filtering、Rewritingという流れ。「Overall we find that step (3) Rewriting is more effective compared to (2) Filtering, though using both offers complementary performance benefits.」というのも興味深い記述。

A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More

  • A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More [16.5]
    大規模言語モデル(LLM)は、人間のクエリに対する事実的かつ一貫性のある応答を生成することができる。 しかし、学習データの混合品質は、望ましくない応答を発生させる可能性がある。
    論文  参考訳(メタデータ)   (Tue, 23 Jul 2024 06:45:52 GMT)
  • アライメント手法に関するサーベイで、salesforceのチームによる包括的なもの
  • 「Over the past two years, various methods have been proposed from different perspectives to enhance LLMs, particularly in aligning them with human expectation.」とある通り、近年急速に研究が進む(というよりは少し前から出来上がってきた)分野

Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment

  • Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment [103.1]
    従来のアライメント戦略は人間の介入に大きく依存しており、例えばSupervised Fine-Tuning(SFT)やReinforcement Learning from Human Feedback(RLHF)などである。 本稿では、AlignCoTと呼ばれる思考の連鎖(CoT)アプローチを利用した新しい自己アライメント手法を提案する。 本稿では、AlignCoTプロセスの各コンポーネントを強化するために専門家の混合を適用し、アライメント効率を著しく向上させるMoTEアーキテクチャについて紹介する。
    論文  参考訳(メタデータ)   (Wed, 03 Jul 2024 15:04:25 GMT)
  • CoT的手法を用いた自己アライメント手法ALignCoT とさらにそれを効率化するMoTE(Mixture of insighTful Experts)の提案。
  • 「Safety alignment is essential for LLMs.Existing approaches like SFT and RLHF rely extensively on human annotation, whereas self-alignment strategies depend on LLMs’ emergent abilities.」はそうなんだろうと思うのだけど、強力な自己アライメント手法が安全につながるのかはどうなんだろう。。。

Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions

  • Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.7]
    近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。 人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。
    論文  参考訳(メタデータ)   (Thu, 13 Jun 2024 16:03:25 GMT)
  • AI アライメントに関するサーベイで400以上の文献を調査した包括的なもの。Overall Author List and Contributions からの幅広い分野の方が調査に参加している。
  • 個人的には「Challenge 3: Safeguarding Co-adaptation」の「As advanced AI systems become increasingly complex, they present greater challenges for human interpretation and control. To address this, it is crucial to empower humans to detect and interpret AI misconduct on instrumental actions towards accomplishing its final goals.」が興味深かった。未来的ではあるが、本当に制御できるのか若干疑問。

The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights

  • The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.4]
    本稿では,大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメント手法を提案する。 実験結果から,質問アライメント手法は多様な推論シナリオにおける多言語のパフォーマンス向上に有効であることが示唆された。 その成功のメカニズムを理解するために、表現空間、チェーン・オブ・シンク、翻訳データスケールを分析する。
    論文  参考訳(メタデータ)   (Thu, 02 May 2024 14:49:50 GMT)
  • 多言語性能を上げるための2段階のアライメント手法( question alignment and response alignment)の提案。さらに「En-X translation training can implicitly bias LLM to generate non-English chain-of-thought and increase the question-response language consistency.」とのこと。分析や解釈も面白い。
  • リポジトリはGitHub – NJUNLP/QAlign

On the Essence and Prospect: An Investigation of Alignment Approaches for Big Models

  • On the Essence and Prospect: An Investigation of Alignment Approaches for Big Models [77.9]
    ビッグデータはAIの分野で画期的なブレークスルーを達成したが、潜在的な懸念を生じさせるかもしれない。 このような懸念に対処するため、これらのモデルを人間の嗜好や価値観に適合させるアライメント技術が導入された。 過去1年間にかなりの進歩があったにもかかわらず、最適アライメント戦略の確立には様々な課題がある。
    論文  参考訳(メタデータ)   (Thu, 7 Mar 2024 04:19:13 GMT)
  • アライメントのサーベイ、と同時にLLMの急速な進化が感じられる。

Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision

  • Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision [99.0]
    現在のAIアライメント手法は、人間が提供する実演や判断に依存している。 彼らの能力が人間のレベルを超えたとき、システムを改善するにはどうすればよいのか?
    論文  参考訳(メタデータ)   (Thu, 14 Mar 2024 15:12:38 GMT)
  • The Unreasonable Effectiveness of Easy Training Data for Hard Tasks – arXiv最新論文の紹介 (devneko.jp)でも取り上げられていた話だが、PRMs(process reward models)やOPRMs(Outcome & Process Reward Model)を用いるとさらに有効とのこと。
  • AGIやASIという話を聞くにこのような手法の重要性が高まっているように思う(一方で結論にある「This approach presents a promising direction for developing AI systems capable of surpassing human problem-solving capabilities」のように人間がEasy側に位置づけられるのは複雑な思いもある)
  • リポジトリはEdward-Sun/easy-to-hard (github.com)

Navigating the OverKill in Large Language Models

  • Navigating the OverKill in Large Language Models [84.6]
    モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。 以上の結果から,モデル内にショートカットが存在することが明らかとなり,”キル”のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。 我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
    論文  参考訳(メタデータ)   (Wed, 31 Jan 2024 07:26:47 GMT)
  • LLMは「kill」のような単語に過剰反応し性能を落とすことがあり、その対策方法の提案。安全性を高める取り組みが過剰反応を引き起こすことはありそうで面白い。
  • リポジトリはInvokerStark/OverKill (github.com)

Self-Rewarding Language Models

Alignment for Honesty

  • Alignment for Honesty [113.4]
    我々は、正直に整合することの重要性を主張し、言語モデルが知識が欠如している場合に、積極的に質問に答えることを拒否します。 この課題は、メトリクス開発、ベンチマーク作成、トレーニングという観点で包括的なソリューションを必要とする。 正直さを強調する複数の効率的な微調整技術によってさらにインスタンス化されるフレキシブルなトレーニングフレームワークを導入する。
    論文  参考訳(メタデータ)   (Tue, 12 Dec 2023 06:10:42 GMT)
  • 分からないときは分からない(質問に答えない)ようにするフレームワークの提案。メトリクスの定義や検証など参考になる点も多い。
  • リポジトリはGitHub – GAIR-NLP/alignment-for-honesty