Automatic Hallucination Assessment for Aligned Large Language Models via Transferable Adversarial Attacks

  • Automatic Hallucination Assessment for Aligned Large Language Models via Transferable Adversarial Attacks [98.2]
    本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。 具体的には,LLM ベースのフレームワークである Auto Debug について述べる。 実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
    論文  参考訳(メタデータ)   (Thu, 19 Oct 2023 06:37:32 GMT)
  • LLMを評価するため(にHallucinationを引き起こす)データセットをエビデンス付きで自動作成するAutoDebugフレームワークワークの提案、対GPT-4やPaLMに対しても有効なよう
  • プロジェクトサイトはAutomatic Hallucination Assessment for Aligned Large Language Models via Transferable Adversarial Attacks (autodebug-llm.github.io)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です