2021年9月3日 – arXiv最新論文の紹介

FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文参考訳（メタデータ） (Wed, 1 Sep 2021 00:08:14 GMT)
- 財務文章に対するQuestion Answeringタスクのデータセット。表形式データを含むこと、数値の推論が必要な事、その過程もデータに含まれている事が特徴的。RoBERTa-largeを組み込んだモデルでも人間のエキスパートには遠く及ばない（Accuracyで65% vs 90%）がクラウドワーカー（同51%）よりは良かったとの結果。
  - 専門家によるアノテーションの重要性が分かる結果な気がする。
- リポジトリはhttps://github.com/czyssrs/FinQA

Towards Out-Of-Distribution Generalization: A Survey [30.7]
古典的な機械学習手法は、トレーニングデータとテストデータが独立して同じ分散であるというi.i.d.の仮定に基づいて構築されている。実際のシナリオでは、i.i.d.の仮定はほとんど満たされず、分散シフトの下で古典的な機械学習アルゴリズムのパフォーマンスが急落する。本論文は,OOD一般化問題を体系的かつ包括的に議論する最初の試みである。
論文参考訳（メタデータ） (Tue, 31 Aug 2021 05:28:42 GMT)
- 機械学習の社会実装で避けては通れない Out-Of-Distribution問題のサーベイ。問題の定義、対応手法（およびその関係性）、データセット、評価指標にわたる広範な内容だが16ページとコンパクト。研究概要を知るために良い内容だと思う。
- http://out-of-distribution-generalization.com/ から調査対象資料が確認可能。この資料集も非常にありがたい。

日: 2021年9月3日