CLAIMCHECK: How Grounded are LLM Critiques of Scientific Papers?
CLAIMCHECK: How Grounded are LLM Critiques of Scientific Papers? [36.8] CLAIMCHECKは、NeurIPS 2023と2024のアノテートデータセットであり、OpenReviewから抽出されたレビューである。 CLAIMCHECKは、レビューの弱点に関するMLの専門家によって豊富な注釈が付けられており、論文は、それらが矛盾していると主張しており、また、識別された弱点の妥当性、客観性、タイプに関するきめ細かいラベルも主張している。 我々は,CLAIMCHECK が支援する3つのクレーム中心タスクについて,(1) 紛争のクレームに弱点を関連付けること,(2) 弱点のきめ細かいラベルを予測し,その特異性を高めるために弱点を書き換えること,(3) 根拠付き推論で論文のクレームを検証すること,の3つについて,LCM をベンチマークする。 論文参考訳(メタデータ) (Thu, 27 Mar 2025 17:29:45 GMT)
「This work has introduced CLAIMCHECK—a benchmark of reviewer-identified weaknesses in NeurIPS 2023 and 2024 submissions, richly annotated with descriptive labels by experts and grounded in the claims that they dispute in the reviewed papers. Further, we benchmark various LLMs on three novel tasks enabled by CLAIMCHECK—Weakness Labeling and Editing (WLE), Claim Association (CA), and Claim Verification (CV)—all aimed at assisting reviewers during the peer review process.」というベンチマークの提案。現在のLLMにとって難しいタスクとなっている。