TabMWP: Tabular Math Word Problem

  • Dynamic Prompt Learning via Policy Gradient for Semi-structured Mathematical Reasoning [150.2]
    数学的な推論を必要とする38,431のグレードレベルの問題を含む新しいデータセットであるTabular Math Word Problems (TabMWP)を提案する。 我々は,GPT-3モデルを含む,TabMWP上での事前学習モデルの評価を行った。 本稿では、ポリシー勾配を利用して、少量のトレーニングデータからコンテキスト内サンプルを選択する新しいアプローチ、PromptPGを提案する。
    論文  参考訳(メタデータ)   (Thu, 29 Sep 2022 08:01:04 GMT)
    • 表形式のデータに対して数学的な推論を必要とするデータセットの提案。38Kと規模も大きい。GPT-3+強化学習により一般的な手法よりも高い性能を達成とのこと。

SQA(Science Question Answering)、SCIENCEQAベンチマーク

  • Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering [124.2]
    本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。 また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。 我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
    論文  参考訳(メタデータ)   (Tue, 20 Sep 2022 07:04:24 GMT)
    • 21kからなるマルチモーダル、マルチホップを含むQAデータセット。注釈等も付与されている。GPT-3 & chain-of-thought (CoT)で正解率75.17%とのこと。
      • 既に低くないのでは?と思わなくもない。
    • プロジェクトサイトはScienceQA

GENREAD: 検索の代わりの大規模言語モデル

  • Generate rather than Retrieve: Large Language Models are Strong Context Generators [74.9]
    本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。 我々は,提案手法をgenRead と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
    論文  参考訳(メタデータ)   (Wed, 21 Sep 2022 01:30:59 GMT)
    • open-domain QAで良く用いられる検索モジュールを大規模言語モデルによる生成器に置き換えることで優れた性能を達成との報告。 TriviaQA と WebQ でSoTAを主張。
    • 大規模言語モデルからうまく情報を引き出す事と大規模な知識データベースを検索する事が近しく、しかも前者の性能が良いことを示しているような気がしていて、Transformer等による情報の圧縮はかなり効果的なんだろうなという直感。

WildQA

  • WildQA: In-the-Wild Video Question Answering [22.1]
    本研究では,外部設定で録画された映像の映像理解データセットWILDQAを提案する。 また、与えられた質問や回答に対する視覚的支援を識別する新しいタスクについても紹介する。
    論文  参考訳(メタデータ)   (Wed, 14 Sep 2022 13:54:07 GMT)
    • 屋外で記録された映像を用いたVQAデータセット。規模は369本、916QA。ドメインが「Agriculture」「Human survival」「Natural disaster」「Geography」「Military」とかなり特殊。
    • プロジェクトサイトはWildQA: In-the-Wild Video Question Answering (umich.edu)

RealTime QA

  • RealTime QA: What’s the Answer Right Now? [113.0]
    本稿では,動的質問応答(QA)プラットフォームであるRealTime QAを紹介する。 GPT-3は、新しく検索された文書に基づいて、しばしばその生成結果を適切に更新することができる。 検索した文書が回答を見つけるのに十分な情報を提供していない場合、GPT-3は時代遅れの回答を返す傾向にある。
    論文  参考訳(メタデータ)   (Wed, 27 Jul 2022 07:26:01 GMT)
    • QAを現実世界、実時間で評価していく取り組み。Question Answeringモデルの実運用が現実的なのか知る上でも非常に興味深い。
    • プロジェクトサイトはHome | RealTime QA

OmniTab: 合成データを併用したTable QA

財務質問回答(FinQA)に対するモデルアンサンブル

  • A Numerical Reasoning Question Answering System with Fine-grained Retriever and the Ensemble of Multiple Generators for FinQA [53.6]
    本稿では,財務テキストと表データソース間の数値推論質問に答える数値推論質問応答システムを提案する。 検索モジュールにおいて、生成モジュールの入力に無関係で類似のセルを同じ行に持ってくるのを避けるため、金のセルを検索するセルレトリバーを革新的に設計する。 アンサンブルモジュールでは,システム出力として最適なプログラムを選択するために複数のプログラムを統合する。
    論文  参考訳(メタデータ)   (Fri, 17 Jun 2022 01:55:29 GMT)
    • FinQAに対して複数のモジュール(アンサンブル)を適用、スコア: 69.79 を達成したとの報告。
      • FinQANet(RoBERTa Large)を大幅に上回るスコアだがやはり難しいタスクとの感想。

StreamingQA:

  • StreamingQA: A Benchmark for Adaptation to New Knowledge over Time in Question Answering Models [31.4]
    提案する大規模データセットであるStreamingQAを構築した。 プレトレーニングでは見られない新しい記事を読むことで、四半期毎にモデルを評価します。 我々は,大惨な忘れを回避しつつ,パラメトリックモデルをフルリトレーニングなしで更新可能であることを示す。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 23 May 2022 15:33:41 GMT)
    • 14年分のニュース記事に関する大規模QAデータセット、QAモデルの時系列変化による影響を考慮することが可能。
    • リポジトリはGitHub – deepmind/streamingqa

PeaQA: Parameter, Efficient, Abstractive Question Answering

  • Parameter-Efficient Abstractive Question Answering over Tables or Text [60.9]
    QAシステムを求める情報の長期的な野望は、マルチモーダルなコンテキストを推論し、ユーザクエリに対する自然な回答を生成することである。 メモリ集約型事前学習言語モデルは、構造化されていないテキストや構造化テーブルのような特定のモードでQAデータ上のモデルを微調整することで、QAのような下流タスクに適応する。 パラメータ効率の良いアダプタは、トランス層間の小さなタスク固有のボトルネック層を加算し、訓練する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 7 Apr 2022 10:56:29 GMT)
    • 構造化表データと非構造化テキストデータの両方を扱え、パラメータ効率の高いアーキテクチャの提案。 tabular QA ではSoTA、textual QA でも競争力のあるパフォーマンスを達成とのこと。

FairytaleQA : 物語理解のためのQAデータセット

  • Fantastic Questions and Where to Find Them: FairytaleQA — An Authentic Dataset for Narrative Comprehension [136.8]
    幼稚園児の物語理解に焦点を当てたデータセットであるFairytaleQAを8年生に紹介する。 FairytaleQAは10,580の明示的で暗黙的な質問で構成されており、278の子供フレンドリーな物語から導かれる。
    論文  参考訳(メタデータ)   (Sat, 26 Mar 2022 00:20:05 GMT)
    • 物語ドメインのQAデータセット。規模はそれなりという感じだが、セクション限定を行わない場合、長めのテキストを扱う必要がありそう。