XAI – arXiv最新論文の紹介

Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety

Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety [85.8]
CoTモニタリングは不完全であり、一部の誤った行動に気づかないままにすることができる。我々は、既存の安全手法とともに、CoT監視可能性とCoT監視への投資についてさらなる研究を推奨する。 CoTの監視性は脆弱である可能性があるので、フロンティアモデル開発者がCoTの監視性に対する開発決定の影響を考慮することを推奨します。
論文参考訳（メタデータ） (Tue, 15 Jul 2025 16:43:41 GMT)
CoT監視可能性に関する検討。できそうに思いつつCoTの実際の例を見ると結構難しそうにも思える。

OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training Tokens

OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training Tokens [119.6]
OLMoTraceは、言語モデルのアウトプットを、完全にマルチトリルのトレーニングデータにリアルタイムでトレースする。 OLMoTraceは、トレーニングテキストコーパス内の言語モデル出力のセグメントとドキュメントの冗長な一致を見つけ、表示する。
論文参考訳（メタデータ） (Wed, 09 Apr 2025 17:59:35 GMT)
「OLMOTRACE finds and shows verbatim matches between segments of language model output and documents in the training text corpora.」というシステムの提案とOSS実装の公開。Limitationにも「The retrieved documents should not be interpreted as having a causal effect on the LM output, or as supporting evidence or citations for the LM output.」と書かれているとはいえ（かつLLMのデータが必要とはいえ）、様々な応用が考えられそう。
リポジトリはGitHub – allenai/infinigram-api

Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases

Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases [102.1]
CODA-LMは、自動運転のための新しいビジョン言語ベンチマークである。解釈可能な自動運転のためのLVLMの、最初の自動的および定量的評価を提供する。
論文参考訳（メタデータ） (Tue, 16 Apr 2024 14:20:55 GMT)
自動運転のためのLarge Vision-Language Modelsの評価ベンチマーク。「 even the closed-sourced commercial LVLMs like GPT-4V cannot deal with road corner cases well, suggesting that we are still far from a strong LVLM-powered intelligent driving agent」とのこと。。。
リポジトリはCODA-LM: Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases (coda-dataset.github.io)

XRL-Bench

XRL-Bench: A Benchmark for Evaluating and Comparing Explainable Reinforcement Learning Techniques [36.3]
強化学習(Reinforcement Learning, RL)は、様々な分野において大きな可能性を証明しているが、その意思決定プロセスを理解することは、現在進行中の課題である。本稿では, 説明可能なAI(XAI)のサブフィールドである説明可能なRL(XRL)について述べる。我々の焦点は状態記述技術であり、XRL法における重要な部分集合であり、エージェントの行動にいつでも影響を及ぼす要因を明らかにすることである。
論文参考訳（メタデータ） (Tue, 20 Feb 2024 03:20:37 GMT)
説明可能な強化学習のためのベンチマーク
リポジトリはfuxiAIlab/xrl-bench (github.com)

Captum

Using Captum to Explain Generative Language Models [6.0]
CaptumはPyTorchのモデル説明可能性のためのライブラリである。本稿では、生成言語モデルの振る舞いを分析するために特別に設計された新機能を紹介する。
論文参考訳（メタデータ） (Sat, 9 Dec 2023 07:35:24 GMT)
Pytorchのための説明用ライブラリ、Gradient系もPerturbation系も様々な手法が実装されているよう。
リポジトリはCaptum · Model Interpretability for PyTorch

A Comprehensive Review on Financial Explainable AI

A Comprehensive Review on Financial Explainable AI [29.2]
金融の文脈における深層学習モデルの説明可能性向上を目的とした手法の比較調査を行う。説明可能なAI手法のコレクションは,その特性に応じて分類する。我々は、説明可能なAI手法を採用する際の懸念と課題を、適切かつ重要と考えられる今後の方向性とともにレビューする。
論文参考訳（メタデータ） (Thu, 21 Sep 2023 10:30:49 GMT)
金融におけるXAIのサーベイ、状況を概観するのに良い。金融分野へのXAIは必要性もありかなり導入されている印象がある。

Explainability for Large Language Models: A Survey

Explainability for Large Language Models: A Survey [59.7]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文参考訳（メタデータ） (Sat, 2 Sep 2023 22:14:26 GMT)
LLMの説明可能性に関するサーベイ
Traditional Fine-tuning Paradigm、Prompting Paradigmという分け方がLLM的

Capsa: DeepLearningのリスク認識フレームワーク

Capsa: A Unified Framework for Quantifying Risk in Deep Neural Networks [142.7]
ディープニューラルネットワークにリスク認識を提供する既存のアルゴリズムは複雑でアドホックである。ここでは、リスク認識でモデルを拡張するためのフレームワークであるcapsaを紹介します。
論文参考訳（メタデータ） (Tue, 1 Aug 2023 02:07:47 GMT)
bias、label noise、predictive uncertaintyといったDNNモデルに存在するリスクを認識、評価するためのフレームワーク
Introducing Capsa Pro – Empowering Uncertainty-Aware Machine Learning Models! – Themis AI やCapsa Pro: An Automated Uncertainty Detection Solution – Themis AIの説明が書かれているよう。RiskとUncertaintyは似て非なる概念でQuantifyingに対応してRiskと表現しているんだろうか、、、（細かいが）製品や論文の位置づけが気になるところ。

Rank-LIME

Rank-LIME: Local Model-Agnostic Feature Attribution for Learning to Rank [16.8]
Rank-LIMEは、モデルに依存しない局所的、ポストホック的特徴属性法である。我々は,新しい相関に基づく摂動,微分可能なランキング損失関数を導入し,ランキングに基づく付加的特徴帰属モデルを評価するための新しい指標を導入する。
論文参考訳（メタデータ） (Sat, 24 Dec 2022 12:14:32 GMT)
ランキングタスクに対する説明手法（LIMEベース）の提案

Explanations Can Reduce Overreliance on AI Systems During Decision-Making

Explanations Can Reduce Overreliance on AI Systems During Decision-Making [12.7]
AIが予測のための説明を生成する場合、予測のみを提供する場合に比べて、過信は減少しない。過度信頼は認知バイアスや未確認の信頼の結果であり、過度信頼は人間の認知の必然性に起因すると主張する者もいる。対照的に、私たちの論文では、AIの説明に関わるかどうかを戦略的に選択し、AIの説明が過度な信頼を減少させるシナリオがあることを実証的に示す。文献で見いだされた無効効果のいくつかは、AIの予測を検証するコストを十分に削減していない説明によるものである可能性が示唆された。
論文参考訳（メタデータ） (Tue, 13 Dec 2022 18:59:31 GMT)
XAIの有効性に関する報告。「AIを過剰に信頼する文脈でXAIは効果が無い」という既存の報告に対して、5つの実験によって状況に依存するとの結果を出している。
実験のデザインをする過程が詳細で興味深い（この理由により若干長い）
この報告自体は単純化された内容ではあるが、社会実装においてAIの使い方を設計するというのが重要になりそうなことが分かる。

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31