FinQA: 財務データに対する質問回答

  • FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7]
    我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。 我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。 その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
    論文  参考訳(メタデータ)   (Wed, 1 Sep 2021 00:08:14 GMT)
    • 財務文章に対するQuestion Answeringタスクのデータセット。表形式データを含むこと、数値の推論が必要な事、その過程もデータに含まれている事が特徴的。RoBERTa-largeを組み込んだモデルでも人間のエキスパートには遠く及ばない(Accuracyで65% vs 90%)がクラウドワーカー(同51%)よりは良かったとの結果。
      • 専門家によるアノテーションの重要性が分かる結果な気がする。

Out-of-Distribution に関するサーベイ

  • Towards Out-Of-Distribution Generalization: A Survey [30.7]
    古典的な機械学習手法は、トレーニングデータとテストデータが独立して同じ分散であるというi.i.d.の仮定に基づいて構築されている。 実際のシナリオでは、i.i.d.の仮定はほとんど満たされず、分散シフトの下で古典的な機械学習アルゴリズムのパフォーマンスが急落する。 本論文は,OOD一般化問題を体系的かつ包括的に議論する最初の試みである。
    論文  参考訳(メタデータ)   (Tue, 31 Aug 2021 05:28:42 GMT)
    • 機械学習の社会実装で避けては通れない Out-Of-Distribution問題のサーベイ。問題の定義、対応手法(およびその関係性)、データセット、評価指標にわたる広範な内容だが16ページとコンパクト。研究概要を知るために良い内容だと思う。