Evaluation of ChatGPT as a Question Answering System for Answering Complex Questions

  • Evaluation of ChatGPT as a Question Answering System for Answering Complex Questions [27.3]
    ChatGPTは強力な大規模言語モデル(LLM)であり、自然言語理解において顕著な進歩を遂げている。 本稿では,質問応答システム(QAS)としてのChatGPTの性能を,独自の知識を用いて評価するフレームワークを提案する。 提案手法を用いて,8つの実世界のKBベースのCQAデータセットに対して,ChatGPTの性能評価を行う。
    論文  参考訳(メタデータ)   (Tue, 14 Mar 2023 15:46:28 GMT)
  • QAデータを用いたChatGPT(+GPT-3.5)の検証
  • データセットによって得意不得意があるようだが、ものによってはChatGPTがfine tunedなモデルを上回りSoTAという衝撃的な結果。
  • 問題種別や言語種別ごとのスコアも書かれていて「However, the low score obtained in the Chinese test has puzzled us, and we cannot determine whether the cause of this situation is due to “insufficient Chinese resources” or “low resource quality.”」との指摘がある。RLHFの影響なんだろうか・・・?

Cross-Lingual Question Answering over Knowledge Base as Reading Comprehension 

  • Cross-Lingual Question Answering over Knowledge Base as Reading Comprehension [61.1]
    知識ベース(xKBQA)に対する言語間質問応答は、提供された知識ベースとは異なる言語での質問に答えることを目的としている。 xKBQAが直面する大きな課題の1つは、データアノテーションのコストが高いことである。 読解パラダイムにおけるxKBQAの新しいアプローチを提案する。
    論文  参考訳(メタデータ)   (Sun, 26 Feb 2023 05:52:52 GMT)
  • xKBQAを解く際にナレッジベースからサブグラフを抽出、そこから自然言語のテキストを生成し、PLM-based xMRC モデルを用いて回答を得るというアプローチの提案(?)
  • 構造化データを非構造化データにしてしまっている気がするが解釈はあっているだろうか・・・?(それでも大規模PLMの恩恵を受けた方が性能が高まるという事?)
  • リポジトリはGitHub – luciusssss/xkbqa-as-mrc: Cross-Lingual Question Answering over Knowledge Base as Reading Comprehension, Findings of EACL 2023

PrimeQA

  • PrimeQA: The Prime Repository for State-of-the-Art Multilingual Question Answering Research and Development [24.0]
    PRIMEQAは、QAの再調査を民主化し、最先端(SOTA)QAメソッドの複製を容易にすることを目的とした、ワンストップのQAレポジトリである。 検索や読解といったコアQA機能と,質問生成などの補助機能をサポートする。 フロントエンドアプリケーションの構築、pub-licベンチマーク上のSOTAメソッドの複製、既存のメソッドの拡張など、さまざまなユースケースのためのエンドツーエンドツールキットとして設計されている。
    論文  参考訳(メタデータ)   (Wed, 25 Jan 2023 15:48:03 GMT)
  • Question Answeringに関するオープンなリポジトリ&フレームワーク
  • QAを対象にしたもの(かつここまで整理されたもの)はあまりなさそうな気がする
  • リポジトリはPrimeQA · GitHub、HuggingFaceにフレームワークで使えるモデルも公開されているPrimeQA (PrimeQA) (huggingface.co)

MAQA: A Multimodal QA Benchmark for Negation

  • MAQA: A Multimodal QA Benchmark for Negation [12.1]
    マルチモーダル学習は、事前学習された大規模言語モデル(LLM)の表現力の恩恵を受けることができる 本稿では,AudioSetのラベル付き音楽ビデオから適応したマルチモーダル質問応答(QA)ベンチマークを提案する。 モデルサイズに関わらず,マルチモーダル変圧器の標準的な微調整手法では,否定を正しく解釈することができないことを示す。
    論文  参考訳(メタデータ)   (Mon, 9 Jan 2023 10:11:23 GMT)
  • 現状のモデルが苦手とする否定表現に対応するためのタスク拡張手法の提案。テンプレートベースのタスク拡張に比べてPaLMを利用した場合のほうが性能が良く、大規模言語モデルを併用した戦略は良く機能するよう。
  • 構築したデータセットは公開予定とのこと

HybridQAのサーベイ

  • A Survey on Table-and-Text HybridQA: Concepts, Methods, Challenges and Future Directions [46.1]
    表とテキストのハイブリッドな質問応答 (HybridQA) は、金融分野や科学分野に広く採用されているNLPタスクである。 本稿では,現在のHybridQAベンチマークと手法を要約し,課題と今後の方向性について分析する。
    論文  参考訳(メタデータ)   (Tue, 27 Dec 2022 12:34:57 GMT)
  • 表+テキストを対象とした質問応答タスクのサーベイ
  • 実用性が高いがまだまだ簡単ではないタスク

Large Language Models Encode Clinical Knowledge 

  • Large Language Models Encode Clinical Knowledge [21.6]
    大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。 本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。 本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
    論文  参考訳(メタデータ)   (Mon, 26 Dec 2022 14:28:24 GMT)
  • FLAN-PaLM+様々なテクニックおよびFLAN-PaLM+instruction prompt tuningで構築したMed-PaLMにより様々な医療分野のベンチマークでSoTA
  • 人間(医者)には及んでいないものの試験合格水準にあるように見え、衝撃的な結果…

CREPE: CorREction of PrEsupposition

  • CREPE: Open-Domain Question Answering with False Presuppositions [92.2]
    オンライン情報検索フォーラムからの予測失敗の自然な分布を含むQAデータセットであるCREPEを紹介する。 25%の質問が偽の前提命題を含み、これらの前提命題とその修正のための注釈を提供する。 既存のオープンドメインQAモデルの適応は適度に予測できるが、仮定が実際に正しいかどうかを予測するのに苦労する。
    論文  参考訳(メタデータ)   (Wed, 30 Nov 2022 18:54:49 GMT)
  • 前提条件が間違っている状況を含むQAデータセットの提案、8400のうち25%に誤りが含まれ、訂正内容もデータになっているとのこと。
  • 当然ながら通常のQAより難しいタスクであり、現実的。質問の一部に反論(訂正)せねばならず面白い。
  • リポジトリはvelocityCavalry/CREPE: An original implementation of the paper “CREPE: Open-Domain Question Answering with False Presuppositions” (github.com)

Open-Domain Conversational Question Answering with Historical Answers

  • Open-Domain Conversational Question Answering with Historical Answers [29.8]
    本稿では,過去の回答を利用して検索性能を向上させるConvADR-QAを提案する。 提案手法では,学習者側が学習者側から発する雑音を低減させるため,学習者側で学習者側で学習を行う。 ベンチマークデータセットOR-QuACを用いた実験では,抽出および生成の両方において,既存のベースラインよりも優れた性能を示した。
    論文  参考訳(メタデータ)   (Thu, 17 Nov 2022 08:20:57 GMT)
  • 過去の回答を使いながら性能を向上させるQA手法の提案。対話の文脈を一定程度考慮できるようで興味深い。
  • リポジトリはhttps://github.com/MiuLab/ConvADR-QAとのことだが、現時点では404

QAmeleon: Multilingual QA with Only 5 Examples 

  • QAmeleon: Multilingual QA with Only 5 Examples [71.8]
    数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。 我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。 言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
    論文  参考訳(メタデータ)   (Tue, 15 Nov 2022 16:14:39 GMT)
  • 多言語QAモデル実現のための合成データ作成においてPLM+promptを使う手法の提案

DiaASQ

  • DiaASQ: A Benchmark of Conversational Aspect-based Sentiment Quadruple Analysis [84.8]
    そこで本稿では,対話におけるターゲット・アスペクト・オピニオン・センタティメントの感情四重項を検出するために,対話的側面に基づく感情四重項分析,すなわちDiaASQを導入する。 大規模で高品質な中国語データセットを手動で構築し、手動翻訳による英語版データセットも取得する。 エンドツーエンドの四重項予測を効果的に実行し、より優れた発話四重項抽出のために、リッチな対話特化特徴表現と談話特徴表現を組み込むことに成功している。
    論文  参考訳(メタデータ)   (Thu, 10 Nov 2022 17:18:20 GMT)
  • 対話の「target-aspect-opinion-sentiment」を判別するためのデータセット。規模は1000対話、7452発話。中国語のデータで構築されたうえで、手動で英語に翻訳されたデータが存在するとのことで様々な問題設定で使用できそう。
  • プロジェクトサイトはhttps://github.com/unikcc/DiaASQとのことだが、現時点では404