Question Answering – arXiv最新論文の紹介

Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge

Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge [102.8]
本課題は,多様な音響シーンに対する対話型質問応答における音声モデルをテストするための3つのQAサブセットを定義する。開発セットの予備的な結果を比較し、モデルとサブセット間で強い変動を示す。この課題は、音声モデルの音声理解と推論能力を人間レベルに向上することを目的としている。
論文参考訳（メタデータ） (Mon, 12 May 2025 09:04:16 GMT)
Audio Question Answeringベンチマーク、DCASE 2025 Challengeの説明。audio captioningタスクより一歩進んだもので重要性が増すタスクだと思う。
リポジトリはPeacefulData/2025_DCASE_AudioQA_Official · Datasets at Hugging Face

Knowledge-Aware Reasoning over Multimodal Semi-structured Tables

Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.2]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。この目的のために設計された新しいデータセットであるMMTabQAを紹介する。我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文参考訳（メタデータ） (Sun, 25 Aug 2024 15:17:43 GMT)
マルチモーダルなＱＡデータセットの提案。データ公開予定としているが現時点ではリポジトリ等へのリンクはなさそう。
「Closed-source models like GPT-4o and Gemini1.5 Flash outperform open-source models in multimodal tasks due to advanced training techniques and better integration of visual and textual data.」、「In text-only tasks, the performance gap between open-source and closed-source models narrows significantly, with open-source models like Llama-3 providing competitive results.」とのことで現時点ではマルチモーダルにおいてオープンなモデルは苦戦しているよう。

VideoQA in the Era of LLMs: An Empirical Study

VideoQA in the Era of LLMs: An Empirical Study [108.4]
Video Large Language Models (Video-LLMs) は盛んであり、多くのビデオ直感的なタスクを進歩させている。本研究は,ビデオQAにおけるビデオLLMの行動に関するタイムリーかつ包括的な研究を行う。分析の結果,ビデオ-LLMはビデオQAで優れており,文脈的手がかりを相関させ,様々な映像コンテンツに関する質問に対して妥当な応答を生成できることがわかった。しかし、時間的コンテンツ順序の推論とQA関連時間的モーメントのグラウンド化の両方において、ビデオの時間性を扱うモデルが失敗する。
論文参考訳（メタデータ） (Thu, 08 Aug 2024 05:14:07 GMT)
MLLM時代のVideo QAに関する検証。VQAというとVisualを思い浮かべるがVideoなQAも非常に多くのモデルが発表されている。。。
https://github.com/doc-doc/VideoQA-LLMs　がリポジトリとのことだが、現時点では４０４

LongVideoBench

LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9]
LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
論文参考訳（メタデータ） (Mon, 22 Jul 2024 16:00:55 GMT)
8-15 seconds, 15-60 seconds, 3-10 minutes, 15-60 minutesと様々な長さのビデオに対するQAベンチマーク。長いフレームを見ないと回答できないことが特徴。
プロジェクトサイトはLongVideoBench

EWEK-QA: Enhanced Web and Efficient Knowledge Graph Retrieval for Citation-based Question Answering Systems

EWEK-QA: Enhanced Web and Efficient Knowledge Graph Retrieval for Citation-based Question Answering Systems [103.9]
引用ベースのQAシステムは2つの欠点に悩まされている。彼らは通常、抽出された知識の源としてWebにのみ依存し、外部の知識ソースを追加することで、システムの効率を損なう。システムに供給された知識の内容を充実させるため,Web と効率的な知識グラフ (KG) 検索ソリューション (EWEK-QA) を提案する。
論文参考訳（メタデータ） (Fri, 14 Jun 2024 19:40:38 GMT)
WEB検索＋ナレッジグラフを用いたQA
Webretriverの結果とナレッジグラフからのトリプルをLLMに入れて回答を求める形態だが、ナレッジグラフからの情報探索・取得でSentence BERTを活用、LLMを使っていないのも興味深い。そして性能はとても高い。

SEMQA: Semi-Extractive Multi-Source Question Answering

SEMQA: Semi-Extractive Multi-Source Question Answering [98.8]
本稿では,複数ソースを半抽出的に要約することで,複数の質問に答える新しいQAタスクを提案する。この種の最初のデータセットであるQuoteSumを作成し、自然および生成された質問に対する人間による半抽出的な回答を提示する。
論文参考訳（メタデータ） (Wed, 8 Nov 2023 18:46:32 GMT)
SEMQAという新たなタスクの提案、「Specifically, given a question and a set of retrieved passages, the goal is to generate a summarized and well-grounded answer that interleaves verbatim extracted spans of factual statements with free-text connectors.」とのことでHallucinationを避け検証可能なanswerを得る事が目的のよう
リポジトリはGitHub – google-research-datasets/QuoteSum: QuoteSum is a textual QA dataset containing Semi-Extractive Multi-source Question Answering (SEMQA) examples written by humans, based on Wikipedia passages.

ExpertQA

ExpertQA: Expert-Curated Questions and Attributed Answers [54.8]
本稿では,いくつかのシステムから得られる様々な事実と帰属の軸を解析する評価研究について述べる。まず、32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する回答を評価する。また、専門家に言語モデルによる回答の修正を依頼し、32分野にわたる2177の質問からなる高品質の長文QAデータセットであるExpertQAを導いた。
論文参考訳（メタデータ） (Thu, 14 Sep 2023 16:54:34 GMT)
高品質な長文QAデータセットの提案。「EXPERTQA contains 2177 informationseeking questions formulated by experts spanning 32 fields, as well as expert-verified, model-generated answers to these questions.」と非常に構築の手間がかかったデータセットになっている。論文に書かれたFindingsが非常に興味深い。
リポジトリはGitHub – chaitanyamalaviya/ExpertQA: [Data + code] ExpertQA : Expert-Curated Questions and Attributed Answers

FunQA, Movie101

FunQA: Towards Surprising Video Comprehension [34.3]
本稿では,楽しみビデオに基づく動画推論の深度評価と深度向上を目的としたデータセットFunQAを紹介する。 FunQAはHumorQA、CreativeQA、MagicQAの3種類の驚くべきビデオをカバーしている。各サブセットに対して、直感的正当性、詳細な映像記述、反直感性に関する推論におけるモデルの能力を評価するために設計された厳密なQAタスクを確立する。 FunQAベンチマークは4.3Kのビデオクリップから派生した312Kの無料テキストQAペアで構成され、合計24時間に及ぶ。
論文参考訳（メタデータ） (Mon, 26 Jun 2023 17:59:55 GMT)
ビデオへのQAデータセット。QAテキスト自体は問題ないと思うが、ビデオ部分は著作権的に大丈夫なんだろうか？（不明点が多いのでリポジトリへのリンクは貼っていない）

Movie101: A New Movie Understanding Benchmark [47.2]
大規模な中国の映画ベンチマーク「Movie101」を構築した。映画ナレーション評価のためのMNScore(Movie Narration Score)と呼ばれる新しい指標を提案する。両タスクにおいて,提案手法は外部知識をうまく活用し,慎重に設計したベースラインよりも優れた性能を発揮する。
論文参考訳（メタデータ） (Tue, 27 Jun 2023 11:42:44 GMT)
こちらはナレーション作成のタスクを対象とした映画のデータセット
同じく著作権的な疑問点があるためリンクは貼っていない

この手のタスクは重要であり今後有望な分野なのだろうと思うが、既存の映像を使うのはリスクが高い気がする。研究用に頑張って映像から作るしかないのではないかと思わなくはない。

Doc2SoarGraph

Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text Documents with Semantic-Oriented Hierarchical Graphs [73.3]
視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
論文参考訳（メタデータ） (Thu, 4 May 2023 10:02:39 GMT)
報告書のようなドキュメントに対するテーブルを含むQA、いろいろ盛り込まれているものの実務的にはよくある問題。階層型のグラフ構造を用いており凄いパイプライン構成。

Evaluation of ChatGPT as a Question Answering System for Answering Complex Questions

Evaluation of ChatGPT as a Question Answering System for Answering Complex Questions [27.3]
ChatGPTは強力な大規模言語モデル(LLM)であり、自然言語理解において顕著な進歩を遂げている。本稿では,質問応答システム(QAS)としてのChatGPTの性能を,独自の知識を用いて評価するフレームワークを提案する。提案手法を用いて,8つの実世界のKBベースのCQAデータセットに対して,ChatGPTの性能評価を行う。
論文参考訳（メタデータ） (Tue, 14 Mar 2023 15:46:28 GMT)
QAデータを用いたChatGPT（＋GPT-3.5）の検証
データセットによって得意不得意があるようだが、ものによってはChatGPTがfine tunedなモデルを上回りSoTAという衝撃的な結果。
問題種別や言語種別ごとのスコアも書かれていて「However, the low score obtained in the Chinese test has puzzled us, and we cannot determine whether the cause of this situation is due to “insuﬃcient Chinese resources” or “low resource quality.”」との指摘がある。RLHFの影響なんだろうか・・・？

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31