CREAK: 常識を推論するためのデータセット

  • CREAK: A Dataset for Commonsense Reasoning over Entity Knowledge [32.6]
    エンティティ知識に関するコモンセンス推論のためのテストベッドであるCREAKを紹介する。 私たちのデータセットは、真か偽かのエンティティに関する主張で構成されています。 クラウドワーカーはこれらのステートメントを簡単に見つけ出すことができ、データセット上での人間のパフォーマンスは高い。
    論文  参考訳(メタデータ)   (Fri, 3 Sep 2021 17:56:40 GMT)
    •  Commonsense reasoning タスクのデータセット、データ数は約13Kで単文のクレームとその真偽(+説明文)で構成される。文を「読解」しなくても解けるような特徴(アーティファクト)が無いか丁寧に確認されているなど品質の高いデータとの印象。
      • ただ、CREAKが何の略か不明だった・・・
    • WEBサイトはhttps://www.cs.utexas.edu/~yasumasa/creak/

英語文書検索タスクを非英語に転送

  • Cross-Lingual Training with Dense Retrieval for Document Retrieval [56.3]
    我々は、英語のアノテーションから複数の非英語言語への文書ランク付けのための異なる転送手法について検討する。 6つの言語(中国語、アラビア語、フランス語、ヒンディー語、ベンガル語、スペイン語)におけるテストコレクションの実験。 弱教師付きターゲット言語転送は、世代ベースターゲット言語転送に対する競合性能をもたらすことが判明した。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 3 Sep 2021 17:15:38 GMT)
    • 英語のデータ+mBERTで作ったモデルが他言語のタスクでも有効であることを示した報告。色々なタスクで同様の性質が報告されているが、中国語、アラビア語、フランス語、ヒンディー語、ベンガル語、スペイン語と複数言語の文書検索タスクで結果を確認しており参考になる。

FLAN(Finetuned LAnguage Net): 自然言語で命令可能なモデル

  • Finetuned Language Models Are Zero-Shot Learners [67.7]
    命令チューニングは、目に見えないタスクにおけるゼロショット性能を向上することを示す。 137Bパラメータを事前訓練した言語モデルと、自然言語の命令テンプレートを介して言語化された60以上のNLPタスクにチューニングする。 FLANと呼ばれるこの命令調整モデルについて、未知のタスクタイプで評価する。
    論文  参考訳(メタデータ)   (Fri, 3 Sep 2021 17:55:52 GMT)
    • 効率的に自然言語で命令を記載可能な事前学習モデルを構築、GPT-3のFew-shotを上回る性能を出したとの報告。62個のデータセットを12種類のタスククラスタに分類、自然言語で書かれた命令を使いタスクを記述するためのテンプレートを手動で作成して学習データを構築。137BパラメータのTransformer(2.81T BPE tokenのWebドキュメント、対話データ、Wikipediaで事前学習済み、10%が英語以外)でモデルを構築したとのこと。読解タスクではprompt engneering無しでfew-shotのGPT-3を上回る結果を出している。一方で翻訳タスクではfew-shotのGPT-3を下回っているようで事前学習モデルの言語の偏りに影響されているように見える。
      • 自然言語で指示可能とか未来を感じる結果、そして規模が非常に大きい。

MultiEURLEX : ゼロショットマルチリンガルTranferのためのデータセット

  • MultiEURLEX — A multi-lingual and multi-label legal document classification dataset for zero-shot cross-lingual transfer [13.2]
    法律文書のトピック分類のための多言語データセットであるMulti-EURLEXを紹介する。 データセットは、正式に23言語に翻訳された65kの欧州連合(EU)の法律で構成され、EUROVOC分類の複数のラベルが注釈付けされている。 そこで、ある言語(ソース)の注釈付きトレーニング文書を利用して、別の言語(ターゲット)のドキュメントを分類します。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 2 Sep 2021 12:52:55 GMT)
    • EUの法律とその翻訳文書を活用したデータセットを作成、マルチリンガルモデルを活用してゼロショットの対応が可能か検証するデータセットとしての活用を提案。いくつかの手法を試しておりfine-tuningの効率化を狙ったadaptation strategies(https://arxiv.org/abs/1902.00751など)が多言語をゼロショットで転送する場合にも有効としている。
    • リポジトリはhttps://github.com/nlpaueb/multi-eurlex
    • マルチリンガルなゼロショットは非常に面白く実社会に対する影響が大きい(達成されると言語の壁が無くなる)ので、このようなデータセットが整備されるのは重要だと思う。adapterが効果的に機能するという報告も興味深い。

CodeT5: コード理解と生成の両方をサポートする統一フレームワーク

  • CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation [36.5]
    我々は、開発者が指定した識別子から伝達されるコードセマンティクスをよりよく活用する、事前訓練されたエンコーダ-デコーダ変換モデルであるCodeT5を提案する。 我々のモデルは、コード理解と生成タスクの両方をシームレスにサポートし、マルチタスク学習を可能にする統一的なフレームワークを採用している。
    論文  参考訳(メタデータ)   (Thu, 2 Sep 2021 12:21:06 GMT)
    • T5のアーキテクチャをプログラムコード用に拡張(展開)したモデルを提案、PLBARTなど先端モデルと比べても優れた性能を出したとのこと。
    • リポジトリはhttps://github.com/salesforce/CodeT5

Survey of Low-Resource Machine Translation: データが少ない言語の機械翻訳

  • Survey of Low-Resource Machine Translation [65.5]
    現在、世界中で約7000の言語が話されており、ほとんど全ての言語ペアは機械翻訳モデルのトレーニングのための重要なリソースを欠いている。 翻訳データが少ない場合に有用な翻訳モデルを作成するという課題に対処する研究への関心が高まっている。
    論文  参考訳(メタデータ)   (Wed, 1 Sep 2021 16:57:58 GMT)
    • (特に)低リソースの言語に対して機械翻訳モデルの状況を調査したサーベイ。主にパラレルコーパスのデータソース(収集・作成)、モノリンガルデータの活用、マルチリンガルデータ・モデルの活用、タグ付けや構文解析など機械翻訳以外の言語リソース活用、モデル構築・推論の改善、高度化など幅広い内容が扱われている。日英翻訳はリソースが多い言語ペアであると思うが、参考になる情報は多い。

FinQA: 財務データに対する質問回答

  • FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7]
    我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。 我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。 その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
    論文  参考訳(メタデータ)   (Wed, 1 Sep 2021 00:08:14 GMT)
    • 財務文章に対するQuestion Answeringタスクのデータセット。表形式データを含むこと、数値の推論が必要な事、その過程もデータに含まれている事が特徴的。RoBERTa-largeを組み込んだモデルでも人間のエキスパートには遠く及ばない(Accuracyで65% vs 90%)がクラウドワーカー(同51%)よりは良かったとの結果。
      • 専門家によるアノテーションの重要性が分かる結果な気がする。

Out-of-Distribution に関するサーベイ

  • Towards Out-Of-Distribution Generalization: A Survey [30.7]
    古典的な機械学習手法は、トレーニングデータとテストデータが独立して同じ分散であるというi.i.d.の仮定に基づいて構築されている。 実際のシナリオでは、i.i.d.の仮定はほとんど満たされず、分散シフトの下で古典的な機械学習アルゴリズムのパフォーマンスが急落する。 本論文は,OOD一般化問題を体系的かつ包括的に議論する最初の試みである。
    論文  参考訳(メタデータ)   (Tue, 31 Aug 2021 05:28:42 GMT)
    • 機械学習の社会実装で避けては通れない Out-Of-Distribution問題のサーベイ。問題の定義、対応手法(およびその関係性)、データセット、評価指標にわたる広範な内容だが16ページとコンパクト。研究概要を知るために良い内容だと思う。

Lyra: Turducken-Styleのコード生成ベンチマーク

  • Lyra: A Benchmark for Turducken-Style Code Generation [15.8]
    ソフトウェア開発では、あるプログラミング言語が別のプログラミング言語に埋め込まれることが多い。 本稿では、自然言語のコメントを前提として、組み込み言語でプログラムを生成することを目的とした新しいコード生成タスクを定義する。 私たちの知る限り、これが最初のturduckenスタイルのコード生成タスクです。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 27 Aug 2021 07:22:55 GMT)
    • Pythonコードの中にSQLが入るなど、あるプログラミング言語の中に別のプログラミング言語のコードが入っているスタイルを Turducken-Styleと呼び、その生成タスクとデータセットを提案している。 400時間かけて作った中国語と英語のコメントに対応する2,000件のスニペットが含まれるということで価値のあるデータだと思う。
    • リポジトリはhttps://github.com/LIANGQINGYUAN/Lyra

SummerTime: 要約のためのツールキット

  • SummerTime: Text Summarization Toolkit for Non-experts [23.0]
    SummerTimeは、さまざまなモデル、データセット、評価メトリクスを含む、テキスト要約のための完全なツールキットである。 SummerTimeはNLP研究者向けに設計されたライブラリと統合されており、使いやすいAPIをユーザに提供する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Sun, 29 Aug 2021 03:24:48 GMT)
    • モデル、データセット、評価方法が入ったツールキット。Multi documentやQuery basedなものまでまとめて入るのは素晴らしいと思う。
      • モデル:
        • Single-doc: BartModel, LexRankModel, LongformerModel, PegasusModel, TextRankModel
        • Multi-doc: MultiDocJointModel, MultiDocSeparateModel
        • Dialogue-based: HMNetModel
        • Query-based:BM25SummModel, TFIDFSummModel
      • データセット: ArXiv, CNN/DM(3.0.0), MlsumDataset, Multi-News, SAMSum, Pubmedqa, QMSum, ScisummNet, SummScreen, XSum
      • 評価方法: BERT Score, BLEU, ROUGE