FinQA: 財務データに対する質問回答

  • FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7]
    我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。 我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。 その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
    論文  参考訳(メタデータ)   (Wed, 1 Sep 2021 00:08:14 GMT)
    • 財務文章に対するQuestion Answeringタスクのデータセット。表形式データを含むこと、数値の推論が必要な事、その過程もデータに含まれている事が特徴的。RoBERTa-largeを組み込んだモデルでも人間のエキスパートには遠く及ばない(Accuracyで65% vs 90%)がクラウドワーカー(同51%)よりは良かったとの結果。
      • 専門家によるアノテーションの重要性が分かる結果な気がする。

Out-of-Distribution に関するサーベイ

  • Towards Out-Of-Distribution Generalization: A Survey [30.7]
    古典的な機械学習手法は、トレーニングデータとテストデータが独立して同じ分散であるというi.i.d.の仮定に基づいて構築されている。 実際のシナリオでは、i.i.d.の仮定はほとんど満たされず、分散シフトの下で古典的な機械学習アルゴリズムのパフォーマンスが急落する。 本論文は,OOD一般化問題を体系的かつ包括的に議論する最初の試みである。
    論文  参考訳(メタデータ)   (Tue, 31 Aug 2021 05:28:42 GMT)
    • 機械学習の社会実装で避けては通れない Out-Of-Distribution問題のサーベイ。問題の定義、対応手法(およびその関係性)、データセット、評価指標にわたる広範な内容だが16ページとコンパクト。研究概要を知るために良い内容だと思う。

Lyra: Turducken-Styleのコード生成ベンチマーク

  • Lyra: A Benchmark for Turducken-Style Code Generation [15.8]
    ソフトウェア開発では、あるプログラミング言語が別のプログラミング言語に埋め込まれることが多い。 本稿では、自然言語のコメントを前提として、組み込み言語でプログラムを生成することを目的とした新しいコード生成タスクを定義する。 私たちの知る限り、これが最初のturduckenスタイルのコード生成タスクです。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 27 Aug 2021 07:22:55 GMT)
    • Pythonコードの中にSQLが入るなど、あるプログラミング言語の中に別のプログラミング言語のコードが入っているスタイルを Turducken-Styleと呼び、その生成タスクとデータセットを提案している。 400時間かけて作った中国語と英語のコメントに対応する2,000件のスニペットが含まれるということで価値のあるデータだと思う。
    • リポジトリはhttps://github.com/LIANGQINGYUAN/Lyra

SummerTime: 要約のためのツールキット

  • SummerTime: Text Summarization Toolkit for Non-experts [23.0]
    SummerTimeは、さまざまなモデル、データセット、評価メトリクスを含む、テキスト要約のための完全なツールキットである。 SummerTimeはNLP研究者向けに設計されたライブラリと統合されており、使いやすいAPIをユーザに提供する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Sun, 29 Aug 2021 03:24:48 GMT)
    • モデル、データセット、評価方法が入ったツールキット。Multi documentやQuery basedなものまでまとめて入るのは素晴らしいと思う。
      • モデル:
        • Single-doc: BartModel, LexRankModel, LongformerModel, PegasusModel, TextRankModel
        • Multi-doc: MultiDocJointModel, MultiDocSeparateModel
        • Dialogue-based: HMNetModel
        • Query-based:BM25SummModel, TFIDFSummModel
      • データセット: ArXiv, CNN/DM(3.0.0), MlsumDataset, Multi-News, SAMSum, Pubmedqa, QMSum, ScisummNet, SummScreen, XSum
      • 評価方法: BERT Score, BLEU, ROUGE

DART(DifferentiAble pRompT ): 言語モデルを効率的に拡張するアプローチ

  • Differentiable Prompt Makes Pre-trained Language Models Better Few-shot Learners [23.2]
    本研究は,differiAble pRompT (DART) という新規で効率的なアプローチを提案する。 小さな言語モデルを、プロンプトエンジニアリングなしで、より優れたfew-shotの学習者に変換することができる。 標準NLPタスクの包括的な評価は、提案手法がより優れたFewショット性能を実現することを示す。
    論文  参考訳(メタデータ)   (Mon, 30 Aug 2021 12:29:25 GMT)
    • 言語モデルに対してfine-tuningではなくfew-shotのアプローチを取り入れられるようにして良い性能を出したとの報告。(プロンプトの)テンプレートTokenとラベルToken相当のパラメータを連続空間で最適化することが特徴とのこと。入力側を連続空間で最適化して良いプロンプト(相当の入力)を探るアプローチ(と思われる)。「the pseudo tokens in the prompt template must be co-dependent with each other」とある通り単純にやってもうまくいかなさそうな気がするが、提案されているTraining Objectivesが良く機能しているよう。
    • GPT Understands, Too で提案されたP-tuningと似ているが、こちらは外部モデル(P-tuningの場合はLSTM)が不要。

N15News: マルチモーダルなデータセット

  • N15News: A New Dataset for Multimodal News Classification [7.8]
    我々は、New York Timesから15のカテゴリで生成され、各ニュースにテキスト情報と画像情報の両方を含む新しいデータセット、N15Newsを提案する。 融合方式の異なる新しいマルチタスクマルチモーダルネットワークを設計し,テキストのみのニュース分類よりも多モーダルニュース分類が優れていることを示す実験を行った。
    論文  参考訳(メタデータ)   (Mon, 30 Aug 2021 15:46:09 GMT)
  • マルチモーダル(画像+テキスト)なデータセットの提案。200kと大規模でありリアルなニュースであることから有用性が高いと思われる。著者らの実験ではマルチモーダルなデータの利用が精度を改善するとのこと。
  • データはPDFからGoogle driveで共有されている。