LLaVA-RLHF

  • Aligning Large Multimodal Models with Factually Augmented RLHF [176.5]
    大規模マルチモーダルモデル(LMM)はモダリティにまたがって構築され、2つのモダリティ間のミスアライメントは「hallucination」をもたらす。 テキスト領域から視覚言語アライメントのタスクまで,RLHF(Reinforcement Learning from Human Feedback)を適応させる。 本稿では、報酬モデルに付加的な事実情報を追加するFactually Augmented RLHFという新しいアライメントアルゴリズムを提案する。 提案手法は,テキストのみのGPT-4の性能レベルが94%であるLLaVA-Benchデータセットにおいて,顕著な改善を実現している。
    論文  参考訳(メタデータ)   (Mon, 25 Sep 2023 20:59:33 GMT)
  • マルチモーダルモデルに対するRLHFとしてFactually Augmented RLHF (Fact-RLHF) を提案。モデルが公開されているのが興味深くGPT-4V(GPT-4V(ision) system card (openai.com))と比較してみたところ。
  • リポジトリはLLaVA-RLHF。モデルはzhiqings/LLaVA-RLHF-13b-v1.5-336 · Hugging Face( Apache License 2.0)など。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です