CLAIMCHECK: How Grounded are LLM Critiques of Scientific Papers?

  • CLAIMCHECK: How Grounded are LLM Critiques of Scientific Papers? [36.8]
    CLAIMCHECKは、NeurIPS 2023と2024のアノテートデータセットであり、OpenReviewから抽出されたレビューである。 CLAIMCHECKは、レビューの弱点に関するMLの専門家によって豊富な注釈が付けられており、論文は、それらが矛盾していると主張しており、また、識別された弱点の妥当性、客観性、タイプに関するきめ細かいラベルも主張している。 我々は,CLAIMCHECK が支援する3つのクレーム中心タスクについて,(1) 紛争のクレームに弱点を関連付けること,(2) 弱点のきめ細かいラベルを予測し,その特異性を高めるために弱点を書き換えること,(3) 根拠付き推論で論文のクレームを検証すること,の3つについて,LCM をベンチマークする。
    論文  参考訳(メタデータ)   (Thu, 27 Mar 2025 17:29:45 GMT)
  • 「This work has introduced CLAIMCHECK—a benchmark of reviewer-identified weaknesses in NeurIPS 2023 and 2024 submissions, richly annotated with descriptive labels by experts and grounded in the claims that they dispute in the reviewed papers. Further, we benchmark various LLMs on three novel tasks enabled by CLAIMCHECK—Weakness Labeling and Editing (WLE), Claim Association (CA), and Claim Verification (CV)—all aimed at assisting reviewers during the peer review process.」というベンチマークの提案。現在のLLMにとって難しいタスクとなっている。
  • リポジトリはhttps://github.com/JHU-CLSP/CLAIMCHECKとのこと

Can LLMs Automate Fact-Checking Article Writing?

  • Can LLMs Automate Fact-Checking Article Writing? [69.9]
    我々は、一般的なファクトチェックパイプラインを拡張し、フルファクトチェック記事の自動生成の必要性を論じる。 我々は,人間のファクトチェッカーの筆記ワークフローを模倣した LLM ベースのエージェントフレームワーク QRAFT を開発した。
    論文  参考訳(メタデータ)   (Sat, 22 Mar 2025 07:56:50 GMT)
  • いわゆる普通のファクトチェックではなく「QRAFT as a multi-agent collaboration that mimics the factchecking article writing process of human experts」というフレームワークQRAFTの提案。
  • 他手法よりも性能はよいものの「Our evaluation shows that while QRAFT outperforms several previously proposed text-generation approaches, it lags considerably behind expert-written articles.」というのは残念

FactReasoner: A Probabilistic Approach to Long-Form Factuality Assessment for Large Language Models 

  • FactReasoner: A Probabilistic Approach to Long-Form Factuality Assessment for Large Language Models [59.2]
    本稿では,確率論的推論に依拠した新たな事実性評価器FactReasonerを提案する。 ラベル付きおよびラベルなしのベンチマークデータセットの実験は、FactReasonerが最先端のプロンプトベースのアプローチよりも大幅に改善されていることを示す。
    論文  参考訳(メタデータ)   (Tue, 25 Feb 2025 19:01:48 GMT)
  • 一般的な「FactReasoner proceeds in a manner similar to existing prompt-based assessors by decomposing the response into atomic units and retrieving contexts relevant to them from an external knowledge source.」ではなく、「FactReasoner evaluates the factuality of the atoms by probabilistic reasoning over a graphical model that represents the logical relationships between the textual utterances corresponding to the atoms and contexts.」というアプローチ。

Loki: An Open-Source Tool for Fact Verification 

  • Loki: An Open-Source Tool for Fact Verification [49.5]
    Lokiは、誤情報の増加に対処するために設計されたオープンソースのツールだ。 長いテキストを個々のクレームに分割し、チェックの信頼性を評価し、クエリを生成し、エビデンスを取得し、クレームを検証する。 LokiはMITライセンスでリリースされており、GitHubから入手できる。
    論文  参考訳(メタデータ)   (Wed, 02 Oct 2024 17:52:41 GMT)
  • OSSのファクトチェックツール、チェックすべきファクト(主張)の分解後、WEB検索結果を用いてファクトチェックを行うアプローチ
  • リポジトリはGitHub – Libr-AI/OpenFactVerification: Loki: Open-source solution designed to automate the process of verifying factuality

Data Gemma

Googleから発表されたDataGemmaも興味深い取り組み(DataGemma: AI open models connecting LLMs to Google’s Data Commons (blog.google)Grounding AI in reality with a little help from Data Commons (research.google))である。

Home – Data Commonsを利用してハルシネーションを抑えようというものでRIG (Retrieval-Interleaved Generation) とRAG (Retrieval-Augmented Generation) のユースケースを想定。モデルはgoogle/datagemma-rig-27b-it · Hugging Facegoogle/datagemma-rag-27b-it · Hugging Faceに公開れている。

上記モデルはRIGであれば「The DataGemma model (based on the 27 billion parameter Gemma 2 model and fully fine-tuned for this RIG task) generates a response, which includes a natural language query for Data Commons’ existing natural language interface, specifically designed to retrieve relevant data. For example, instead of stating “The population of California is 39 million”, the model would produce “The population of California is [DC(What is the population of California?) → “39 million”]”, allowing for external verification and increased accuracy.」、RAGであれば「The DataGemma model (based on the Gemma 2 (27B) model and fully fine-tuned for this RAG task) analyzes the user’s query and generates a corresponding query (or queries) in natural language that can be understood by Data Commons’ existing natural language interface.」とのことでData Commonsの既存インタフェースをうまく活用できるようになっている。

この手のfine tuningは重要になりつつあるように思う。

Can LLMs Produce Faithful Explanations For Fact-checking? Towards Faithful Explainable Fact-Checking via Multi-Agent Debate

  • Can LLMs Produce Faithful Explanations For Fact-checking? Towards Faithful Explainable Fact-Checking via Multi-Agent Debate [75.1]
    大規模言語モデル(LLM)はテキスト生成に優れるが、事実チェックにおいて忠実な説明を生成する能力は依然として過小評価されている。 多様な役割を持つエージェントとして複数のLSMを利用するマルチエージェント・デベート・リファインメント(MADR)フレームワークを提案する。 MADRは、最終的な説明が厳密な検証を行い、不誠実な要素の可能性を著しく低減し、提示された証拠と密接に一致させることを保証する。
    論文  参考訳(メタデータ)   (Mon, 12 Feb 2024 04:32:33 GMT)
  • 「Our findings reveal that zero-shot prompting LLMs often fails to yield faithful explanations.80% of the generated explanations include hallucinated details.」なので、Multi-Agent Debate Refinement によって改善したという報告。ベースラインより改善しているが、まだまだ厳しい結果に思える。
  • 「LLMs cannot reliably assess the faithfulness of the generated explanations and discover the most suitable evaluation protocols for LLM-based automatic evaluation」というfindingsは重要

The Earth is Flat? Unveiling Factual Errors in Large Language Models

  • The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.9]
    ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。 それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。 LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
    論文  参考訳(メタデータ)   (Mon, 1 Jan 2024 14:02:27 GMT)
  • WIkidataをベースに 3種類(Yes-No, Multiple-Choice, WH (whで始まる疑問詞を使った質問))のファクトチェックテストデータFactCheckerを構築したとの報告、ルールベースの要素が多い。
  • 「FactChecker can substantially enhance the factual accuracy, resulting in an average improvement of 6.5% for the ICL method, and a notable enhancement of 33.2% for the fine-tuning method.」というのも興味深い(が、この評価を解釈するのは難しそう…)、コード等公開予定とのこと。

Factcheck-GPT

  • Factcheck-GPT: End-to-End Fine-Grained Document-Level Fact-Checking and Correction of LLM Output [124.3]
    本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。 ラベル付け手順を高速化し、ラッカーの作業を簡単にするためのアノテーションツールを設計し、構築する。 オープンドメインの文書レベルの事実性ベンチマークを3段階のクレーム,文,文書で構築する。
    論文  参考訳(メタデータ)   (Wed, 15 Nov 2023 14:41:57 GMT)
  • LLMのためのファクトチェックベンチマーク&アノテーションツールの提案。「This reveals that current mainstreaming SOTA fact-checkers still have large room to improve on verification, particularly on false claims (F1<0.53).」とのこと。
  • リポジトリはGitHub – yuxiaw/Factcheck-GPT: Fact-Checking the Output of Generative Large Language Models in both Annotation and Evaluation.

Fin-Fact

  • Fin-Fact: A Benchmark Dataset for Multimodal Financial Fact Checking and Explanation Generation [31.2]
    Fin-Factは金融ドメイン内のマルチモーダル事実チェックのためのベンチマークデータセットである。 専門的なファクトチェッカーアノテーションと正当化が含まれ、専門知識と信頼性を提供する。
    論文  参考訳(メタデータ)   (Fri, 15 Sep 2023 22:24:00 GMT)
  • 金融分野のファクトチェッキング用データセット&ベンチマーク
  • リポジトリはGitHub – IIT-DM/Fin-Fact: A Benchmark Dataset for Multimodal Scientific Fact Checking、MITライセンスのよう

FacTool

  • FacTool: Factuality Detection in Generative AI — A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios [87.1]
    より広い範囲のタスクは、生成モデルによって処理されると、事実エラーを含むリスクが増大する。 大規模言語モデルにより生成されたテキストの事実誤りを検出するためのタスクおよびドメインに依存しないフレームワークであるFacToolを提案する。
    論文  参考訳(メタデータ)   (Tue, 25 Jul 2023 14:20:51 GMT)
  • 生成AIが生成したデータに対するFact Checkツールの提案。knowledge-based QA, code generation, mathematical reasoning, scientific literature reviewで有効性を確認とのこと。
  • LLMを用いてクレーム検出→クエリ作成(検索エンジン等の利用)→クエリー&エビデンス収集→検証する流れで人が行う検証と同じ手順。FACTOOL powered by GPT-4は性能が高くself check系のベースラインを大きく上回っている。
  • (今までであればそれぞれのステップ1つ1つが簡単ではないタスクとして扱われていたはずだが、LLMの登場で1モデルで実施可能になっている点も感慨深い。)
  • リポジトリはGitHub – GAIR-NLP/factool: FacTool: Factuality Detection in Generative AI