The Law of Knowledge Overshadowing: Towards Understanding, Predicting, and Preventing LLM Hallucination

  • The Law of Knowledge Overshadowing: Towards Understanding, Predicting, and Preventing LLM Hallucination [85.2]
    本稿では,知識のシェードイングをモデル化することで,事実の幻覚を定量化する新しい枠組みを提案する。 オーバシャドウ(27.9%)、MemoTrap(13.1%)、NQ-Swap(18.3%)のモデル事実性を顕著に向上させる。
    論文  参考訳(メタデータ)   (Sat, 22 Feb 2025 08:36:06 GMT)
  • ハルシネーションの定量化とハルシネーションを抑えるデコード戦略「Contrastive Decoding to Amplify Overshadowed Knowledge (CoDA)」の提案。
  • 「Our work identify knowledge overshadowing as a contributional cause of LLMs hallucination, where dominant knowledge suppresses less frequent facts, leading to fact distortions.」は直観・経験的に違和感はなく、実験結果も面白い。

FactReasoner: A Probabilistic Approach to Long-Form Factuality Assessment for Large Language Models 

  • FactReasoner: A Probabilistic Approach to Long-Form Factuality Assessment for Large Language Models [59.2]
    本稿では,確率論的推論に依拠した新たな事実性評価器FactReasonerを提案する。 ラベル付きおよびラベルなしのベンチマークデータセットの実験は、FactReasonerが最先端のプロンプトベースのアプローチよりも大幅に改善されていることを示す。
    論文  参考訳(メタデータ)   (Tue, 25 Feb 2025 19:01:48 GMT)
  • 一般的な「FactReasoner proceeds in a manner similar to existing prompt-based assessors by decomposing the response into atomic units and retrieving contexts relevant to them from an external knowledge source.」ではなく、「FactReasoner evaluates the factuality of the atoms by probabilistic reasoning over a graphical model that represents the logical relationships between the textual utterances corresponding to the atoms and contexts.」というアプローチ。

SurveyX: Academic Survey Automation via Large Language Models 

  • SurveyX: Academic Survey Automation via Large Language Models [23.1]
    SurveyXは、自動サーベイ生成のための効率的で組織化されたシステムである。 調査構成過程を, 準備と生成の2段階に分割する。 これは調査組成物の有効性を著しく向上させる。
    論文  参考訳(メタデータ)   (Thu, 20 Feb 2025 17:59:45 GMT)
  • 自動的なサーベイシステム「Inspired by human writing processes, we propose SurveyX, an efficient and organized system for automated survey generation that decomposes the survey composing process into two phases: the Preparation and Generation phases.」の構築、凝ったパイプライン構成。
  • プロジェクトサイトはSurveyX-Automated Survey Generation

MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency 

  • MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency [63.2]
    CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。 我々は,LMMのCoT推論性能を評価する特別ベンチマークであるMME-CoTを紹介する。 我々は最先端のLMMの詳細な分析を行い、いくつかの重要な知見を明らかにした。
    論文  参考訳(メタデータ)   (Thu, 13 Feb 2025 18:59:46 GMT)
  • 「we introduce MMECoT, a specialized benchmark evaluating the CoT reasoning performance of LMMs, spanning six domains: math, science, OCR, logic, space-time, and general scenes.」というベンチマーク
  • プロジェクトサイトはMME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency、LeaderboardトップがKimi k1.5でGPT-4oを超えているという驚きの結果。

Logical Reasoning in Large Language Models: A Survey

  • Logical Reasoning in Large Language Models: A Survey [17.1]
    大規模言語モデル(LLM)における論理的推論の最近の進歩を合成する。 LLMにおける論理的推論の範囲、理論的基礎、および推論の習熟度を評価するために使用されるベンチマークについて概説する。 このレビューは、AIシステムにおける論理的推論を強化するためのさらなる調査の必要性を強調し、今後の方向性を結論付けている。
    論文  参考訳(メタデータ)   (Thu, 13 Feb 2025 09:19:14 GMT)
  • 「This survey synthesizes the rapid advancements and persistent challenges in logical reasoning for large language models (LLMs).」と、急速に発展しているLLMにおける論理的推論に関するサーベイ

S*: Test Time Scaling for Code Generation 

The Multilingual Mind : A Survey of Multilingual Reasoning in Language Models

  • The Multilingual Mind : A Survey of Multilingual Reasoning in Language Models [18.4]
    多言語推論は言語間の論理的推論を扱うために言語モデルを必要とする。 この調査は、言語モデルにおける多言語推論に関する、最初の詳細なレビューを提供する。
    論文  参考訳(メタデータ)   (Thu, 13 Feb 2025 16:25:16 GMT)
  • 多言語対応に関するサーベイ。
  • 日本語が割と健闘しているように見えるが、ほんとなんやろか。

Exploring Translation Mechanism of Large Language Models 

  • Exploring Translation Mechanism of Large Language Models [23.7]
    大規模言語モデル(LLM)は多言語翻訳タスクにおいて著しく成功している。 本研究では,計算成分の観点から,LLMの翻訳機構について検討する。
    論文  参考訳(メタデータ)   (Mon, 17 Feb 2025 13:50:29 GMT)
  • LLMを用いた翻訳の解析。「translation is predominantly facilitated by a sparse subset of specialized attention heads (less than 5%), which extract source language, indicator, and positional features. MLPs subsequently integrate and process these features by transiting towards English-centric latent representations.」とのこと。

Judging the Judges: A Collection of LLM-Generated Relevance Judgements

  • Judging the Judges: A Collection of LLM-Generated Relevance Judgements [37.1]
    本稿では,SIGIR 2024におけるLLMJudgeの大規模自動妥当性評価の結果をベンチマークし,報告する。 8つの国際チームが作成したTREC 2023ディープラーニングトラック関連判定のラベルを42 LLMで作成し、ベンチマークする。
    論文  参考訳(メタデータ)   (Wed, 19 Feb 2025 17:40:32 GMT)
  • 「This paper benchmarks and reports on the results of a large-scale automatic relevance judgment evaluation, the LLMJudge challenge at SIGIR 2024, where different relevance assessment approaches were proposed.」とのことでいろいろ検証なアプローチのまとめ。

A Survey on Data-Centric AI: Tabular Learning from Reinforcement Learning and Generative AI Perspective 

  • A Survey on Data-Centric AI: Tabular Learning from Reinforcement Learning and Generative AI Perspective [23.3]
    タブラルデータ(Tabular data)は、バイオインフォマティクス、医療、マーケティングなど、さまざまな領域で広く使われているデータフォーマットの1つである。 本調査では,データ空間を精製するための基本技術として,強化学習(RL)と特徴選択と特徴生成のための生成的アプローチについて検討する。 我々は,既存の課題を要約し,今後の研究の方向性について論じ,この分野の継続的なイノベーションを促進する洞察を提供することを目的とする。
    論文  参考訳(メタデータ)   (Wed, 12 Feb 2025 22:34:50 GMT)
  • 「Tabular data-centric AI is evolving with RL-based optimization and generative modeling playing a key role in feature engineering.」とのこと。現状でも重要性が下がっていないテーブルデータに対してRL系の最適化や生成AI活用などをサーベイした論文。

不均衡データに対するサーベイも出ていた。こちらも過去から重要な視点。

  • A Comprehensive Survey on Imbalanced Data Learning [45.3]
    不均衡なデータは、さまざまな種類の生データに広まっており、機械学習のパフォーマンスを妨げる。 本調査は,様々な実世界のデータ形式を体系的に分析する。 さまざまなデータフォーマットに関する既存の研究は、データ再バランス、特徴表現、トレーニング戦略、アンサンブル学習の4つのカテゴリにまとめられている。
    論文  参考訳(メタデータ)   (Thu, 13 Feb 2025 04:53:17 GMT)