Training Language Models to Explain Their Own Computations 

  • Training Language Models to Explain Their Own Computations [73.9]
    本研究では,LMの自己内部への特権的アクセスをどの程度活用できるかを考察し,その振る舞いを説明するための新しい手法を提案する。 既存の解釈可能性技術を用いて,(1)LM特徴によって符号化された情報,(2)LMの内部アクティベーションの因果構造,(3)特定の入力トークンがLM出力に与える影響の自然言語記述を生成する。
    論文  参考訳(メタデータ)   (Wed, 12 Nov 2025 02:05:44 GMT)
  • 「Taken together, these results suggest that even when language models cannot faithfully self-explain as a result of ordinary training, they can learn to do so through an objective that enforces consistency between their external explanations and their internal procedures. This reframes interpretation as not only an external analysis problem, but as a capability that can be trained into LMs themeselves; by leveraging privileged access to internal computations, “introspective interpretability” techniques offer an avenue towards scalable understanding of model behavior.」と非常に興味深い研究

Thought Branches: Interpreting LLM Reasoning Requires Resampling 

  • Thought Branches: Interpreting LLM Reasoning Requires Resampling [11.0]
    一つのサンプルを研究することは因果的影響と基礎となる計算を理解するのに不十分であると主張する。 モデル決定のための再サンプリングを用いたケーススタディを提案する。
    論文  参考訳(メタデータ)   (Fri, 31 Oct 2025 14:02:37 GMT)
  • 「we can measure a partial CoT’s impact by resampling only the subsequent text. We present case studies using resampling to investigate model decisions. First, when a model states a reason for its action, does that reason actually cause the action?」と、CoTへの介入とその影響に関する報告。先行研究を含めて面白い動作分析。この報告では「We address this by repeatedly resampling to remove sentences and by measuring resilience, the number of interventions required to erase a sentence’s content from a trace. 」などCoTの過程の分布にも注目し計算コストは高いが納得性の高い手法を用いている。

ShapeX: Shapelet-Driven Post Hoc Explanations for Time Series Classification Models 

  • ShapeX: Shapelet-Driven Post Hoc Explanations for Time Series Classification Models [111.3]
    時系列を意味のあるシェープレット駆動セグメントに分割する革新的なフレームワークであるShapeXを紹介する。 ShapeXの中核にはShapelet Describe-and-Detectフレームワークがあり、分類に不可欠なさまざまなシェイプレットを効果的に学習する。
    論文  参考訳(メタデータ)   (Thu, 23 Oct 2025 00:01:40 GMT)
  • 時系列分類に関する説明手法、「we introduce SHAPEX, a novel approach that segments the time series into meaningful subsequences and computes Shapley value [13] as saliency scores. Instead of distributing importance across individual timesteps, SHAPEX aggregates timesteps into cohesive, shapelet-driven segments that serve as “players” in the Shapley value computation. By measuring each segment’s marginal contribution to the black-box model’s prediction, this method clearly identifies which subsequences significantly influence classification outcomes.」
  • リポジトリはGitHub – BosonHwang/ShapeX: Shapelet-Driven Post Hoc Explanations for Time Series Classification Models

Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety 

  • Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety [85.8]
    CoTモニタリングは不完全であり、一部の誤った行動に気づかないままにすることができる。 我々は、既存の安全手法とともに、CoT監視可能性とCoT監視への投資についてさらなる研究を推奨する。 CoTの監視性は脆弱である可能性があるので、フロンティアモデル開発者がCoTの監視性に対する開発決定の影響を考慮することを推奨します。
    論文  参考訳(メタデータ)   (Tue, 15 Jul 2025 16:43:41 GMT)
  • CoT監視可能性に関する検討。できそうに思いつつCoTの実際の例を見ると結構難しそうにも思える。

OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training Tokens 

  • OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training Tokens [119.6]
    OLMoTraceは、言語モデルのアウトプットを、完全にマルチトリルのトレーニングデータにリアルタイムでトレースする。 OLMoTraceは、トレーニングテキストコーパス内の言語モデル出力のセグメントとドキュメントの冗長な一致を見つけ、表示する。
    論文  参考訳(メタデータ)   (Wed, 09 Apr 2025 17:59:35 GMT)
  • 「OLMOTRACE finds and shows verbatim matches between segments of language model output and documents in the training text corpora.」というシステムの提案とOSS実装の公開。Limitationにも「The retrieved documents should not be interpreted as having a causal effect on the LM output, or as supporting evidence or citations for the LM output.」と書かれているとはいえ(かつLLMのデータが必要とはいえ)、様々な応用が考えられそう。
  • リポジトリはGitHub – allenai/infinigram-api

Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases

  • Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases [102.1]
    CODA-LMは、自動運転のための新しいビジョン言語ベンチマークである。 解釈可能な自動運転のためのLVLMの、最初の自動的および定量的評価を提供する。
    論文  参考訳(メタデータ)   (Tue, 16 Apr 2024 14:20:55 GMT)
  • 自動運転のためのLarge Vision-Language Modelsの評価ベンチマーク。「 even the closed-sourced commercial LVLMs like GPT-4V cannot deal with road corner cases well, suggesting that we are still far from a strong LVLM-powered intelligent driving agent」とのこと。。。
  • リポジトリはCODA-LM: Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases (coda-dataset.github.io)

XRL-Bench 

  • XRL-Bench: A Benchmark for Evaluating and Comparing Explainable Reinforcement Learning Techniques [36.3]
    強化学習(Reinforcement Learning, RL)は、様々な分野において大きな可能性を証明しているが、その意思決定プロセスを理解することは、現在進行中の課題である。 本稿では, 説明可能なAI(XAI)のサブフィールドである説明可能なRL(XRL)について述べる。 我々の焦点は状態記述技術であり、XRL法における重要な部分集合であり、エージェントの行動にいつでも影響を及ぼす要因を明らかにすることである。
    論文  参考訳(メタデータ)   (Tue, 20 Feb 2024 03:20:37 GMT)
  • 説明可能な強化学習のためのベンチマーク
  • リポジトリはfuxiAIlab/xrl-bench (github.com)

Captum

  • Using Captum to Explain Generative Language Models [6.0]
    CaptumはPyTorchのモデル説明可能性のためのライブラリである。 本稿では、生成言語モデルの振る舞いを分析するために特別に設計された新機能を紹介する。
    論文  参考訳(メタデータ)   (Sat, 9 Dec 2023 07:35:24 GMT)
  • Pytorchのための説明用ライブラリ、Gradient系もPerturbation系も様々な手法が実装されているよう。
  • リポジトリはCaptum · Model Interpretability for PyTorch

A Comprehensive Review on Financial Explainable AI

  • A Comprehensive Review on Financial Explainable AI [29.2]
    金融の文脈における深層学習モデルの説明可能性向上を目的とした手法の比較調査を行う。 説明可能なAI手法のコレクションは,その特性に応じて分類する。 我々は、説明可能なAI手法を採用する際の懸念と課題を、適切かつ重要と考えられる今後の方向性とともにレビューする。
    論文  参考訳(メタデータ)   (Thu, 21 Sep 2023 10:30:49 GMT)
  • 金融におけるXAIのサーベイ、状況を概観するのに良い。金融分野へのXAIは必要性もありかなり導入されている印象がある。

Explainability for Large Language Models: A Survey

  • Explainability for Large Language Models: A Survey [59.7]
    大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。 本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
    論文  参考訳(メタデータ)   (Sat, 2 Sep 2023 22:14:26 GMT)
  • LLMの説明可能性に関するサーベイ
  • Traditional Fine-tuning Paradigm、Prompting Paradigmという分け方がLLM的