Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment

  • Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment [103.1]
    従来のアライメント戦略は人間の介入に大きく依存しており、例えばSupervised Fine-Tuning(SFT)やReinforcement Learning from Human Feedback(RLHF)などである。 本稿では、AlignCoTと呼ばれる思考の連鎖(CoT)アプローチを利用した新しい自己アライメント手法を提案する。 本稿では、AlignCoTプロセスの各コンポーネントを強化するために専門家の混合を適用し、アライメント効率を著しく向上させるMoTEアーキテクチャについて紹介する。
    論文  参考訳(メタデータ)   (Wed, 03 Jul 2024 15:04:25 GMT)
  • CoT的手法を用いた自己アライメント手法ALignCoT とさらにそれを効率化するMoTE(Mixture of insighTful Experts)の提案。
  • 「Safety alignment is essential for LLMs.Existing approaches like SFT and RLHF rely extensively on human annotation, whereas self-alignment strategies depend on LLMs’ emergent abilities.」はそうなんだろうと思うのだけど、強力な自己アライメント手法が安全につながるのかはどうなんだろう。。。

Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions

  • Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.7]
    近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。 人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。
    論文  参考訳(メタデータ)   (Thu, 13 Jun 2024 16:03:25 GMT)
  • AI アライメントに関するサーベイで400以上の文献を調査した包括的なもの。Overall Author List and Contributions からの幅広い分野の方が調査に参加している。
  • 個人的には「Challenge 3: Safeguarding Co-adaptation」の「As advanced AI systems become increasingly complex, they present greater challenges for human interpretation and control. To address this, it is crucial to empower humans to detect and interpret AI misconduct on instrumental actions towards accomplishing its final goals.」が興味深かった。未来的ではあるが、本当に制御できるのか若干疑問。

The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights

  • The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.4]
    本稿では,大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメント手法を提案する。 実験結果から,質問アライメント手法は多様な推論シナリオにおける多言語のパフォーマンス向上に有効であることが示唆された。 その成功のメカニズムを理解するために、表現空間、チェーン・オブ・シンク、翻訳データスケールを分析する。
    論文  参考訳(メタデータ)   (Thu, 02 May 2024 14:49:50 GMT)
  • 多言語性能を上げるための2段階のアライメント手法( question alignment and response alignment)の提案。さらに「En-X translation training can implicitly bias LLM to generate non-English chain-of-thought and increase the question-response language consistency.」とのこと。分析や解釈も面白い。
  • リポジトリはGitHub – NJUNLP/QAlign

On the Essence and Prospect: An Investigation of Alignment Approaches for Big Models

  • On the Essence and Prospect: An Investigation of Alignment Approaches for Big Models [77.9]
    ビッグデータはAIの分野で画期的なブレークスルーを達成したが、潜在的な懸念を生じさせるかもしれない。 このような懸念に対処するため、これらのモデルを人間の嗜好や価値観に適合させるアライメント技術が導入された。 過去1年間にかなりの進歩があったにもかかわらず、最適アライメント戦略の確立には様々な課題がある。
    論文  参考訳(メタデータ)   (Thu, 7 Mar 2024 04:19:13 GMT)
  • アライメントのサーベイ、と同時にLLMの急速な進化が感じられる。

Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision

  • Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision [99.0]
    現在のAIアライメント手法は、人間が提供する実演や判断に依存している。 彼らの能力が人間のレベルを超えたとき、システムを改善するにはどうすればよいのか?
    論文  参考訳(メタデータ)   (Thu, 14 Mar 2024 15:12:38 GMT)
  • The Unreasonable Effectiveness of Easy Training Data for Hard Tasks – arXiv最新論文の紹介 (devneko.jp)でも取り上げられていた話だが、PRMs(process reward models)やOPRMs(Outcome & Process Reward Model)を用いるとさらに有効とのこと。
  • AGIやASIという話を聞くにこのような手法の重要性が高まっているように思う(一方で結論にある「This approach presents a promising direction for developing AI systems capable of surpassing human problem-solving capabilities」のように人間がEasy側に位置づけられるのは複雑な思いもある)
  • リポジトリはEdward-Sun/easy-to-hard (github.com)

Navigating the OverKill in Large Language Models

  • Navigating the OverKill in Large Language Models [84.6]
    モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。 以上の結果から,モデル内にショートカットが存在することが明らかとなり,”キル”のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。 我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
    論文  参考訳(メタデータ)   (Wed, 31 Jan 2024 07:26:47 GMT)
  • LLMは「kill」のような単語に過剰反応し性能を落とすことがあり、その対策方法の提案。安全性を高める取り組みが過剰反応を引き起こすことはありそうで面白い。
  • リポジトリはInvokerStark/OverKill (github.com)

Self-Rewarding Language Models

Alignment for Honesty

  • Alignment for Honesty [113.4]
    我々は、正直に整合することの重要性を主張し、言語モデルが知識が欠如している場合に、積極的に質問に答えることを拒否します。 この課題は、メトリクス開発、ベンチマーク作成、トレーニングという観点で包括的なソリューションを必要とする。 正直さを強調する複数の効率的な微調整技術によってさらにインスタンス化されるフレキシブルなトレーニングフレームワークを導入する。
    論文  参考訳(メタデータ)   (Tue, 12 Dec 2023 06:10:42 GMT)
  • 分からないときは分からない(質問に答えない)ようにするフレームワークの提案。メトリクスの定義や検証など参考になる点も多い。
  • リポジトリはGitHub – GAIR-NLP/alignment-for-honesty

AlignBenchとCRITIQUELLM

中国語のアライメント評価のためのベンチマークと評価モデルの提案、リポジトリはGitHub – THUDM/AlignBench: 多维度中文对齐评测基准 | Benchmarking Chinese Alignment of LLMsGitHub – thu-coai/CritiqueLLM

データセットの規模は1000以下とそこまで大規模ではないがこの手の基盤づくりは日本語でもやっていきたいところ。「Additionally, a systematic evaluation of 17 Chinese-supported LLMs was conducted to identify their levels of alignment.」とあるが、評価結果はGPT-3.5を超えているものはあるが僅差でGPT-4には及んでいない、という状況のよう。

  • AlignBench: Benchmarking Chinese Alignment of Large Language Models [100.3]
    中国語大言語モデルのアライメントを評価するための総合ベンチマークであるAlignBenchを紹介する。 筆者らのベンチマークでは,多次元LCM-as-JudgeとChain-of-Thoughtを用いて,説明と最終評価を評価として用いた。 また, GPT-4の評価能力の95%を回復する専用コンパニオン評価器であるCritiqueLLMを開発した。
    論文  参考訳(メタデータ)   (Thu, 30 Nov 2023 17:41:30 GMT)
  • CritiqueLLM: Scaling LLM-as-Critic for Effective and Explainable Evaluation of Large Language Model Generation [89.8]
    我々は、CrytiqueLLMと呼ばれる新しい批評生成モデルを提案する。 実験結果から,GPT-4に匹敵する評価性能が得られた。
    論文  参考訳(メタデータ)   (Thu, 30 Nov 2023 16:52:42 GMT)

Personalized Large Language Model Alignment

  • Personalized Soups: Personalized Large Language Model Alignment via Post-hoc Parameter Merging [148.8]
    パーソナライズされたヒューマンフィードバック(RLPHF)問題からの強化学習について検討する。 LLMは、多目的強化学習(MORL)問題としてアライメントをモデル化することで、複数の好みに整列する。 我々は、好みを複数の次元に分解することで、パーソナライズされたアライメントを実現することができることを示す。
    論文  参考訳(メタデータ)   (Tue, 17 Oct 2023 20:22:13 GMT)
  • RLHFにおいてパーソナライズされた方向にアライメントするP-MORL: PROMPTED-MORL、P-SOUP: PERSONALIZED SOUPSを提案。人による評価とGPT-4による評価が割れているのも興味深いところ。。
  • リポジトリはGitHub – joeljang/RLPHF: Personalized Soups: Personalized Large Language Model Alignment via Post-hoc Parameter Merging