JaQuAD: 日本語のSQuADデータ

医療向けビデオ理解用のデータセットMedVidQA と MedVidCL

Table-and-Text Open Domain QAに対するCARP(ChAincentric Reasoning and Pre-training Framework)

  • Reasoning over Hybrid Chain for Table-and-Text Open Domain QA [69.8]
    我々はChAin中心の推論と事前学習フレームワーク(CARP)を提案する。 CARPはハイブリッドチェーンを使用して、質問応答のための表とテキスト間の明示的な中間推論プロセスをモデル化する。 また,クロスモダリティ推論プロセスの同定において,事前学習モデルを強化するために,新しいチェーン中心の事前学習手法を提案する。
    論文  参考訳(メタデータ)   (Sat, 15 Jan 2022 16:11:55 GMT)

Grow-and-Clip: Explainable Question Answeringモデル

  • Grow-and-Clip: Informative-yet-Concise Evidence Distillation for Answer Explanation [22.2]
    我々は、QAモデルの解釈可能性を高めるために、解答の証拠が重要であると論じる。 我々は、証拠の概念を、情報的で簡潔で読みやすい文脈における支援事実として明確に定義する最初の人物である。 本稿では, トレードオフ情報性, 簡潔性, 可読性からエビデンスを抽出するGCEDアルゴリズムを提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 13 Jan 2022 17:18:17 GMT)
    • 下記5つのモジュールを用いたGrow-and-Clip Evidence Distillationアルゴリズムによる証拠の提案、人による検証結果も良好とのこと。構文解析を含むがっつりとしたパイプライン構成でE2Eでできるのはまだ先なのかなという感想。
      • Answer-oriented Sentences Extractor:  回答を得るための最小の文セットを選択
      • Question-relevant Words Selector: 上記分から質問と強く関連する単語を抽出
      • Weighted Syntactic Parsing Tree Constructor: 上記文の構文ツリーを作成
      • Evidence Forest Constructor: 質問に関連する単語、ツリー構造を用いてエビデンスとなりうる複数のツリーと回答となるツリーを構成
      • Optimal Evidence Distiller: エビデンスツリーの選択

CommonsenseQA 2.0: ゲーミフィケーションにより収集されたQAデータセット

  • CommonsenseQA 2.0: Exposing the Limits of AI through Gamification [126.9]
    現代自然言語理解モデルの能力をテストするベンチマークを構築した。 本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。
    論文  参考訳(メタデータ)   (Fri, 14 Jan 2022 06:49:15 GMT)
    • 高品質なデータを収集するため「AIを打ち負かす」ゲーミフィケーションを用いてベンチマークを構築。最善のモデル(11BパラメータのUNICORN)でも人間に比べて大幅にスコアが低い難しいデータセットとのこと。
    • プロジェクトサイトはExposing the limits of AI through Gamification | CommonsenseQA 2.0 (allenai.github.io)、データのライセンスはCC-BYとのこと。

英語以外のQuestion Answeringデータセット

  • A Survey on non-English Question Answering Dataset [0.0]
    この調査の目的は、多くの研究者がリリースした既存のデータセットを認識し、要約し、分析することである。 本稿では,フランス語,ドイツ語,日本語,中国語,アラビア語,ロシア語など,英語以外の共通言語で利用できる質問応答データセットと,多言語および多言語間の質問応答データセットについて検討する。
    論文  参考訳(メタデータ)   (Mon, 27 Dec 2021 12:45:06 GMT)
    • 英語以外のQAデータセットのサーベイ。日本語で挙げられていたJP-Newsは公開されているんだろうか・・・?

MuMuQA(Multimedia Multi-Hop news Question Answering)

  • MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media Knowledge Extraction and Grounding [131.9]
    我々は、画像中のオブジェクトをテキストにクロスメディアグラウンドする必要があるニュース記事について、1,384の質問を含む新しいQA評価ベンチマークを示す。 具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。 本稿では, マルチメディアデータ拡張フレームワークを提案する。これは, クロスメディア知識抽出と合成質問応答生成に基づいて, このタスクの弱い監視を提供するデータを自動的に強化するものである。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 20 Dec 2021 18:23:30 GMT)
    • クロスメディア(画像、キャプション、ニュース本文)、マルチホップなQAデータセットの提案。人間が作成した評価用データは1384、自動生成された学習用(Silver Training Set)のデータを含むのが特徴的。Oscar-largeでも人間に比べて大幅に性能が悪い難しいデータセットになっている。
    • リポジトリはGitHub – uiucnlp/MuMuQAだがcoming soon

3D Question Answering:3次元の質問回答データセットScanQAと3DQA-TRフレームワーク

  • 3D Question Answering [22.2]
    VQA(Visual Question Answering)を3Dドメインに拡張する最初の試みを示す。 本稿では,新しい3DQAフレームワーク 3DQA-TR を提案する。 提案する3DQAフレームワークの有効性を検証するため,最初の3DQAデータセットScanQAを開発した。
    論文  参考訳(メタデータ)   (Wed, 15 Dec 2021 18:59:59 GMT)
    • データ等は公開予定とのこと。

KEAR(Knowledge External Attention for Reasoning ): 回答に常識が必要なCommonsenseQAで人間に匹敵

  • Human Parity on CommonsenseQA: Augmenting Self-Attention with External Attention [66.9]
    本稿では,外部の知識や状況に配慮した外部アテンション機構を備えたトランスフォーマーアーキテクチャの強化を提案する。 提案した外部注意機構は,既存のAIシステムの性能を大幅に向上させることができる。 提案システムは、オープンなCommonsenseQA研究ベンチマークにおいて、89.4%の精度で人間の88.9%に匹敵する。
    論文  参考訳(メタデータ)   (Mon, 6 Dec 2021 18:59:02 GMT)
    • Knowledge Graph、Dictionary、Training Dataを外部知識として活用可能な構造を提案、CommonsenseQAで89.4%と人の精度に匹敵する性能を達成。
    • リーダーボードはLeaderboard | tau-nlp

ContraQA: 誤情報が混在したQA

  • ContraQA: Question Answering under Contradicting Contexts [86.0]
    矛盾する文脈下でのQAモデルの振る舞いを調査し,QAモデルに対する誤報のリスクについて検討する。 質問応答と誤情報検出を統合した対応策として,誤情報認識型QAシステムを構築した。
    論文  参考訳(メタデータ)   (Fri, 15 Oct 2021 01:55:18 GMT)
    • SQuADをベースに偽情報を混在したQAを作成、評価。既存のQAシステムの性能が大幅に劣化することを確認。実用上はfake news検知のようなものを内包しないといけないのだろうと思いつつ、人間でも難しいタスクが設定されつつある状況が興味深い。
    • データ等は公開予定とのこと。