Hallucination – ページ 2 – arXiv最新論文の紹介

SAFE: Search-Augmented Factuality Evaluator

Long-form factuality in large language models [59.3]
大規模言語モデル(LLM)は、しばしば、オープンエンドトピックの事実検索プロンプトに応答するときに、事実エラーを含むコンテンツを生成する。まず最初にGPT-4を用いて、38のトピックにまたがる何千もの質問からなるプロンプトセットであるLongFactを生成します。そこで我々は,LLMエージェントを検索拡張現実性評価器 (SAFE) と呼ぶ手法により,長期的事実性の自動評価器として使用できることを提案する。
論文参考訳（メタデータ） (Wed, 27 Mar 2024 17:48:55 GMT)
事実性の間違いを重視したベンチマーク、「SAFE utilizes an LLM to break down a long-form response into a set of individual facts and to evaluate the accuracy of each fact using a multi-step reasoning process comprising sending search queries to Google Search and determining whether a fact is supported by the search results.」「Empirically, we demonstrated that SAFE achieves superhuman performance by agreeing with 72% of human annotations and winning 76% of examples out of a set of 100 randomly-sampled disagreement cases.」とのこと。ベンチマークとしての評価結果はGPT-4-turbo > Gemini Ultra > Calude-3 OPUSでClaude 3 OPUSはハルシネーションが多いのでは？という印象を裏付けていそうに思う。SAFEは評価用だけでなく二次チェックにも有用そう。
リポジトリはgoogle-deepmind/long-form-factuality: Benchmarking long-form factuality in large language models. Original code for our paper “Long-form factuality in large language models.” (github.com)

Fine-grained Hallucination Detection and Editing for Language Models

Fine-grained Hallucination Detection and Editing for Language Models [114.3]
大規模言語モデル(LM)は、多種多様な事実的不正確な文を生成する傾向にあり、幻覚と呼ばれる。現在のアプローチは主に、粗い粒度の自動幻覚検出や編集に重点を置いており、微妙なエラーレベルを見下ろしている。そこで本研究では、6つの階層的に定義された幻覚を包含する分類法を提案する。
論文参考訳（メタデータ） (Fri, 12 Jan 2024 19:02:48 GMT)
Hallucinationを6カテゴリに分け、ベンチマークを構築、検出方法としてFAVA (FAct Vericaton with Augmentation)を提案。「ChatGPT (gpt-3.5-turbo-0301) with a carefully designed prompt describing all six categories with two demonstrations.」や左記＋Contriever のベースラインに比べて高い性能とのこと。
プロジェクトサイトはFine-grained Hallucination Detection and Editing For Language Models (fine-grained-hallucination.github.io)

A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models

A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models [7.7]
大きな言語モデル(LLM)は、人間のようなテキストを書く能力の進歩を続けている。重要な課題は、事実に見えるが根拠のないコンテンツを生み出すことを幻覚させる傾向にある。本稿では,LLMにおける幻覚を緩和するために開発された32以上の技術について調査する。
論文参考訳（メタデータ） (Tue, 2 Jan 2024 17:56:30 GMT)
ハルシネーション対策手法のサーベイ
色々出てはいるが実装時に使えるもの使えないものがあり、効果も様々。言語影響が大きいものもあってなかなか決定版はない印象。

Alignment for Honesty

Alignment for Honesty [113.4]
我々は、正直に整合することの重要性を主張し、言語モデルが知識が欠如している場合に、積極的に質問に答えることを拒否します。この課題は、メトリクス開発、ベンチマーク作成、トレーニングという観点で包括的なソリューションを必要とする。正直さを強調する複数の効率的な微調整技術によってさらにインスタンス化されるフレキシブルなトレーニングフレームワークを導入する。
論文参考訳（メタデータ） (Tue, 12 Dec 2023 06:10:42 GMT)
分からないときは分からない（質問に答えない）ようにするフレームワークの提案。メトリクスの定義や検証など参考になる点も多い。
リポジトリはGitHub – GAIR-NLP/alignment-for-honesty

Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus

Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.3]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。 LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。 LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文参考訳（メタデータ） (Wed, 22 Nov 2023 08:39:17 GMT)
reference-freeなハルシネーション検出手法の提案、「The proposed method aims to imitate human factuality checking by considering three aspects: focus on informative keywords, focus on preceding words and focus on token properties.」という方法
リポジトリはGitHub – zthang/Focus

Language Models Hallucinate, but May Excel at Fact Verification

Language Models Hallucinate, but May Excel at Fact Verification [95.6]
大規模言語モデル(LLM)はしばしば「幻惑(hallucinate)」し、結果として非実効出力となる。 GPT-3.5でさえ、事実の出力は25%以下である。これは、進捗を計測し、インセンティブを与えるために、事実検証の重要性を浮き彫りにする。
論文参考訳（メタデータ） (Mon, 23 Oct 2023 04:39:01 GMT)
様々なモデルや条件でのハルシネーションについて検証した論文。「Surprisingly, FLAN-T511B, the least factual generator in our study, performs the best as a fact verifier, even outperforming more capable LLMs like GPT3.5 and ChatGPT.」という結果。
「The overall inferior performance of not using evidence reveals the importance of retrieval.」は個人的な感覚にもあう。

Automatic Hallucination Assessment for Aligned Large Language Models via Transferable Adversarial Attacks

Automatic Hallucination Assessment for Aligned Large Language Models via Transferable Adversarial Attacks [98.2]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。具体的には,LLM ベースのフレームワークである Auto Debug について述べる。実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文参考訳（メタデータ） (Thu, 19 Oct 2023 06:37:32 GMT)
LLMを評価するため（にHallucinationを引き起こす）データセットをエビデンス付きで自動作成するAutoDebugフレームワークワークの提案、対GPT-4やPaLMに対しても有効なよう
プロジェクトサイトはAutomatic Hallucination Assessment for Aligned Large Language Models via Transferable Adversarial Attacks (autodebug-llm.github.io)

CoVe: Chain-of-Verification

Chain-of-Verification Reduces Hallucination in Large Language Models [81.0]
言語モデルが与える反応を考慮し、誤りを訂正する能力について検討する。モデルが最初に初期応答をドラフトするChain-of-Verification (CoVe) 法を開発した。ウィキデータからクローズドブックMultiSpanQAまで,さまざまなタスクにおける幻覚の減少を示す。
論文参考訳（メタデータ） (Wed, 20 Sep 2023 17:50:55 GMT)
初期回答を作成→検証計画（検証用の質問）を作成→検証（回答・合意確認）→最終回答とすることでHallucinationを防ぐ取り組み
近しい報告は多いので効果的であろうとは思うが、Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation? – arXiv最新論文の紹介 (devneko.jp)の件もあり多言語で動作するかも興味がある。

DoLa: Decoding by Contrasting Layers

DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models [79.0]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文参考訳（メタデータ） (Thu, 7 Sep 2023 17:45:31 GMT)
Hallucinationを低減させる手法の提案。「By emphasizing the knowledge from higher layers and downplaying the lower or intermediate layer knowledge, we can potentially make LMs more factual and consequently reduce hallucinations. 」とのこと。とても興味深い。
リポジトリはGitHub – voidism/DoLa: Official implementation for the paper “DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models”

Siren’s Song in the AI Ocean: A Survey on Hallucination in Large Language Models

Siren’s Song in the AI Ocean: A Survey on Hallucination in Large Language Models [116.0]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。 LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。本稿では, 幻覚の検出, 説明, 緩和に関する最近の取り組みを, LLMがもたらすユニークな課題に焦点をあてて調査する。
論文参考訳（メタデータ） (Sun, 3 Sep 2023 16:56:48 GMT)
LLMにおけるHallucinationに関するサーベイ
HallucinationをInput-conflicting hallucination、Context-conflicting hallucination、Fact-conflicting hallucinationに分け、対応もPre train、SFT、RLHF、Inferenceとステージ別に分けて整理されており大変わかりやすい。

2025年11月
月	火	水	木	金	土	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30