Knowledge-Aware Reasoning over Multimodal Semi-structured Tables

  • Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.2]
    本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。 この目的のために設計された新しいデータセットであるMMTabQAを紹介する。 我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
    論文  参考訳(メタデータ)   (Sun, 25 Aug 2024 15:17:43 GMT)
  • マルチモーダルなQAデータセットの提案。データ公開予定としているが現時点ではリポジトリ等へのリンクはなさそう。
  • 「Closed-source models like GPT-4o and Gemini1.5 Flash outperform open-source models in multimodal tasks due to advanced training techniques and better integration of visual and textual data.」、「In text-only tasks, the performance gap between open-source and closed-source models narrows significantly, with open-source models like Llama-3 providing competitive results.」とのことで現時点ではマルチモーダルにおいてオープンなモデルは苦戦しているよう。

VideoQA in the Era of LLMs: An Empirical Study

  • VideoQA in the Era of LLMs: An Empirical Study [108.4]
    Video Large Language Models (Video-LLMs) は盛んであり、多くのビデオ直感的なタスクを進歩させている。 本研究は,ビデオQAにおけるビデオLLMの行動に関するタイムリーかつ包括的な研究を行う。 分析の結果,ビデオ-LLMはビデオQAで優れており,文脈的手がかりを相関させ,様々な映像コンテンツに関する質問に対して妥当な応答を生成できることがわかった。 しかし、時間的コンテンツ順序の推論とQA関連時間的モーメントのグラウンド化の両方において、ビデオの時間性を扱うモデルが失敗する。
    論文  参考訳(メタデータ)   (Thu, 08 Aug 2024 05:14:07 GMT)
  • MLLM時代のVideo QAに関する検証。VQAというとVisualを思い浮かべるがVideoなQAも非常に多くのモデルが発表されている。。。
  • https://github.com/doc-doc/VideoQA-LLMs がリポジトリとのことだが、現時点では404

LongVideoBench

  • LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9]
    LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。 私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。 我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
    論文  参考訳(メタデータ)   (Mon, 22 Jul 2024 16:00:55 GMT)
  • 8-15 seconds, 15-60 seconds, 3-10 minutes, 15-60 minutesと様々な長さのビデオに対するQAベンチマーク。長いフレームを見ないと回答できないことが特徴。
  • プロジェクトサイトはLongVideoBench

EWEK-QA: Enhanced Web and Efficient Knowledge Graph Retrieval for Citation-based Question Answering Systems 

  • EWEK-QA: Enhanced Web and Efficient Knowledge Graph Retrieval for Citation-based Question Answering Systems [103.9]
    引用ベースのQAシステムは2つの欠点に悩まされている。 彼らは通常、抽出された知識の源としてWebにのみ依存し、外部の知識ソースを追加することで、システムの効率を損なう。 システムに供給された知識の内容を充実させるため,Web と 効率的な知識グラフ (KG) 検索ソリューション (EWEK-QA) を提案する。
    論文  参考訳(メタデータ)   (Fri, 14 Jun 2024 19:40:38 GMT)
  • WEB検索+ナレッジグラフを用いたQA
  • Webretriverの結果とナレッジグラフからのトリプルをLLMに入れて回答を求める形態だが、ナレッジグラフからの情報探索・取得でSentence BERTを活用、LLMを使っていないのも興味深い。そして性能はとても高い。

SEMQA: Semi-Extractive Multi-Source Question Answering

ExpertQA

  • ExpertQA: Expert-Curated Questions and Attributed Answers [54.8]
    本稿では,いくつかのシステムから得られる様々な事実と帰属の軸を解析する評価研究について述べる。 まず、32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する回答を評価する。 また、専門家に言語モデルによる回答の修正を依頼し、32分野にわたる2177の質問からなる高品質の長文QAデータセットであるExpertQAを導いた。
    論文  参考訳(メタデータ)   (Thu, 14 Sep 2023 16:54:34 GMT)
  • 高品質な長文QAデータセットの提案。「EXPERTQA contains 2177 informationseeking questions formulated by experts spanning 32 fields, as well as expert-verified, model-generated answers to these questions.」と非常に構築の手間がかかったデータセットになっている。論文に書かれたFindingsが非常に興味深い。
  • リポジトリはGitHub – chaitanyamalaviya/ExpertQA: [Data + code] ExpertQA : Expert-Curated Questions and Attributed Answers

FunQA, Movie101

  • FunQA: Towards Surprising Video Comprehension [34.3]
    本稿では,楽しみビデオに基づく動画推論の深度評価と深度向上を目的としたデータセットFunQAを紹介する。 FunQAはHumorQA、CreativeQA、MagicQAの3種類の驚くべきビデオをカバーしている。 各サブセットに対して、直感的正当性、詳細な映像記述、反直感性に関する推論におけるモデルの能力を評価するために設計された厳密なQAタスクを確立する。 FunQAベンチマークは4.3Kのビデオクリップから派生した312Kの無料テキストQAペアで構成され、合計24時間に及ぶ。
    論文  参考訳(メタデータ)   (Mon, 26 Jun 2023 17:59:55 GMT)
  • ビデオへのQAデータセット。QAテキスト自体は問題ないと思うが、ビデオ部分は著作権的に大丈夫なんだろうか?(不明点が多いのでリポジトリへのリンクは貼っていない)
  • Movie101: A New Movie Understanding Benchmark [47.2]
    大規模な中国の映画ベンチマーク「Movie101」を構築した。 映画ナレーション評価のためのMNScore(Movie Narration Score)と呼ばれる新しい指標を提案する。 両タスクにおいて,提案手法は外部知識をうまく活用し,慎重に設計したベースラインよりも優れた性能を発揮する。
    論文  参考訳(メタデータ)   (Tue, 27 Jun 2023 11:42:44 GMT)
  • こちらはナレーション作成のタスクを対象とした映画のデータセット
  • 同じく著作権的な疑問点があるためリンクは貼っていない

この手のタスクは重要であり今後有望な分野なのだろうと思うが、既存の映像を使うのはリスクが高い気がする。研究用に頑張って映像から作るしかないのではないかと思わなくはない。

Doc2SoarGraph

  • Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text Documents with Semantic-Oriented Hierarchical Graphs [73.3]
    視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。 具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。 我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
    論文  参考訳(メタデータ)   (Thu, 4 May 2023 10:02:39 GMT)
  • 報告書のようなドキュメントに対するテーブルを含むQA、いろいろ盛り込まれているものの実務的にはよくある問題。階層型のグラフ構造を用いており凄いパイプライン構成。

Evaluation of ChatGPT as a Question Answering System for Answering Complex Questions

  • Evaluation of ChatGPT as a Question Answering System for Answering Complex Questions [27.3]
    ChatGPTは強力な大規模言語モデル(LLM)であり、自然言語理解において顕著な進歩を遂げている。 本稿では,質問応答システム(QAS)としてのChatGPTの性能を,独自の知識を用いて評価するフレームワークを提案する。 提案手法を用いて,8つの実世界のKBベースのCQAデータセットに対して,ChatGPTの性能評価を行う。
    論文  参考訳(メタデータ)   (Tue, 14 Mar 2023 15:46:28 GMT)
  • QAデータを用いたChatGPT(+GPT-3.5)の検証
  • データセットによって得意不得意があるようだが、ものによってはChatGPTがfine tunedなモデルを上回りSoTAという衝撃的な結果。
  • 問題種別や言語種別ごとのスコアも書かれていて「However, the low score obtained in the Chinese test has puzzled us, and we cannot determine whether the cause of this situation is due to “insufficient Chinese resources” or “low resource quality.”」との指摘がある。RLHFの影響なんだろうか・・・?

Cross-Lingual Question Answering over Knowledge Base as Reading Comprehension 

  • Cross-Lingual Question Answering over Knowledge Base as Reading Comprehension [61.1]
    知識ベース(xKBQA)に対する言語間質問応答は、提供された知識ベースとは異なる言語での質問に答えることを目的としている。 xKBQAが直面する大きな課題の1つは、データアノテーションのコストが高いことである。 読解パラダイムにおけるxKBQAの新しいアプローチを提案する。
    論文  参考訳(メタデータ)   (Sun, 26 Feb 2023 05:52:52 GMT)
  • xKBQAを解く際にナレッジベースからサブグラフを抽出、そこから自然言語のテキストを生成し、PLM-based xMRC モデルを用いて回答を得るというアプローチの提案(?)
  • 構造化データを非構造化データにしてしまっている気がするが解釈はあっているだろうか・・・?(それでも大規模PLMの恩恵を受けた方が性能が高まるという事?)
  • リポジトリはGitHub – luciusssss/xkbqa-as-mrc: Cross-Lingual Question Answering over Knowledge Base as Reading Comprehension, Findings of EACL 2023