AlignBenchとCRITIQUELLM

中国語のアライメント評価のためのベンチマークと評価モデルの提案、リポジトリはGitHub – THUDM/AlignBench: 多维度中文对齐评测基准 | Benchmarking Chinese Alignment of LLMsGitHub – thu-coai/CritiqueLLM

データセットの規模は1000以下とそこまで大規模ではないがこの手の基盤づくりは日本語でもやっていきたいところ。「Additionally, a systematic evaluation of 17 Chinese-supported LLMs was conducted to identify their levels of alignment.」とあるが、評価結果はGPT-3.5を超えているものはあるが僅差でGPT-4には及んでいない、という状況のよう。

  • AlignBench: Benchmarking Chinese Alignment of Large Language Models [100.3]
    中国語大言語モデルのアライメントを評価するための総合ベンチマークであるAlignBenchを紹介する。 筆者らのベンチマークでは,多次元LCM-as-JudgeとChain-of-Thoughtを用いて,説明と最終評価を評価として用いた。 また, GPT-4の評価能力の95%を回復する専用コンパニオン評価器であるCritiqueLLMを開発した。
    論文  参考訳(メタデータ)   (Thu, 30 Nov 2023 17:41:30 GMT)
  • CritiqueLLM: Scaling LLM-as-Critic for Effective and Explainable Evaluation of Large Language Model Generation [89.8]
    我々は、CrytiqueLLMと呼ばれる新しい批評生成モデルを提案する。 実験結果から,GPT-4に匹敵する評価性能が得られた。
    論文  参考訳(メタデータ)   (Thu, 30 Nov 2023 16:52:42 GMT)

Personalized Large Language Model Alignment

  • Personalized Soups: Personalized Large Language Model Alignment via Post-hoc Parameter Merging [148.8]
    パーソナライズされたヒューマンフィードバック(RLPHF)問題からの強化学習について検討する。 LLMは、多目的強化学習(MORL)問題としてアライメントをモデル化することで、複数の好みに整列する。 我々は、好みを複数の次元に分解することで、パーソナライズされたアライメントを実現することができることを示す。
    論文  参考訳(メタデータ)   (Tue, 17 Oct 2023 20:22:13 GMT)
  • RLHFにおいてパーソナライズされた方向にアライメントするP-MORL: PROMPTED-MORL、P-SOUP: PERSONALIZED SOUPSを提案。人による評価とGPT-4による評価が割れているのも興味深いところ。。
  • リポジトリはGitHub – joeljang/RLPHF: Personalized Soups: Personalized Large Language Model Alignment via Post-hoc Parameter Merging

Large Language Model Alignment

  • Large Language Model Alignment: A Survey [42.0]
    大きな言語モデル(LLM)の潜在能力は疑いようもなく大きいが、不正確、誤解を招く、あるいは有害なテキストを生成できる。 この調査は、LLM向けに設計されたアライメント方法論を広範囲に探究する試みである。 また、モデルの解釈可能性や、敵の攻撃に対する潜在的な脆弱性など、健全な問題を調査します。
    論文  参考訳(メタデータ)   (Tue, 26 Sep 2023 15:49:23 GMT)
  • LLMのAlignmentに関するサーベイ。50ページ超と包括的なサーベイ。進展が速い…

LLaVA-RLHF

  • Aligning Large Multimodal Models with Factually Augmented RLHF [176.5]
    大規模マルチモーダルモデル(LMM)はモダリティにまたがって構築され、2つのモダリティ間のミスアライメントは「hallucination」をもたらす。 テキスト領域から視覚言語アライメントのタスクまで,RLHF(Reinforcement Learning from Human Feedback)を適応させる。 本稿では、報酬モデルに付加的な事実情報を追加するFactually Augmented RLHFという新しいアライメントアルゴリズムを提案する。 提案手法は,テキストのみのGPT-4の性能レベルが94%であるLLaVA-Benchデータセットにおいて,顕著な改善を実現している。
    論文  参考訳(メタデータ)   (Mon, 25 Sep 2023 20:59:33 GMT)
  • マルチモーダルモデルに対するRLHFとしてFactually Augmented RLHF (Fact-RLHF) を提案。モデルが公開されているのが興味深くGPT-4V(GPT-4V(ision) system card (openai.com))と比較してみたところ。
  • リポジトリはLLaVA-RLHF。モデルはzhiqings/LLaVA-RLHF-13b-v1.5-336 · Hugging Face( Apache License 2.0)など。