コンテンツへスキップ
- Datasets: A Community Library for Natural Language Processing [55.5]
データセットは、現代のNLPのためのコミュニティライブラリである。 このライブラリには650以上のユニークなデータセットが含まれており、250以上のコントリビュータを抱えており、さまざまな新しいクロスデータセット研究プロジェクトを支援している。
論文 参考訳(メタデータ) (Tue, 7 Sep 2021 03:59:22 GMT)- みんな大好き(?)Huggingfaceとコミュニティが整備したデータセットライブラリ。幅広いデータセットが使いやすく整備されている。
- リポジトリはhttps://github.com/huggingface/datasets、「pip install datasets」はすごいコマンドだなとも。
- CREAK: A Dataset for Commonsense Reasoning over Entity Knowledge [32.6]
エンティティ知識に関するコモンセンス推論のためのテストベッドであるCREAKを紹介する。 私たちのデータセットは、真か偽かのエンティティに関する主張で構成されています。 クラウドワーカーはこれらのステートメントを簡単に見つけ出すことができ、データセット上での人間のパフォーマンスは高い。
論文 参考訳(メタデータ) (Fri, 3 Sep 2021 17:56:40 GMT)
- MultiEURLEX — A multi-lingual and multi-label legal document classification dataset for zero-shot cross-lingual transfer [13.2]
法律文書のトピック分類のための多言語データセットであるMulti-EURLEXを紹介する。 データセットは、正式に23言語に翻訳された65kの欧州連合(EU)の法律で構成され、EUROVOC分類の複数のラベルが注釈付けされている。 そこで、ある言語(ソース)の注釈付きトレーニング文書を利用して、別の言語(ターゲット)のドキュメントを分類します。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 2 Sep 2021 12:52:55 GMT)- EUの法律とその翻訳文書を活用したデータセットを作成、マルチリンガルモデルを活用してゼロショットの対応が可能か検証するデータセットとしての活用を提案。いくつかの手法を試しておりfine-tuningの効率化を狙ったadaptation strategies(https://arxiv.org/abs/1902.00751など)が多言語をゼロショットで転送する場合にも有効としている。
- FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。 我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。 その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (Wed, 1 Sep 2021 00:08:14 GMT)- 財務文章に対するQuestion Answeringタスクのデータセット。表形式データを含むこと、数値の推論が必要な事、その過程もデータに含まれている事が特徴的。RoBERTa-largeを組み込んだモデルでも人間のエキスパートには遠く及ばない(Accuracyで65% vs 90%)がクラウドワーカー(同51%)よりは良かったとの結果。
- 専門家によるアノテーションの重要性が分かる結果な気がする。
- Lyra: A Benchmark for Turducken-Style Code Generation [15.8]
ソフトウェア開発では、あるプログラミング言語が別のプログラミング言語に埋め込まれることが多い。 本稿では、自然言語のコメントを前提として、組み込み言語でプログラムを生成することを目的とした新しいコード生成タスクを定義する。 私たちの知る限り、これが最初のturduckenスタイルのコード生成タスクです。
論文 参考訳(メタデータ) 参考訳(全文) (Fri, 27 Aug 2021 07:22:55 GMT)- Pythonコードの中にSQLが入るなど、あるプログラミング言語の中に別のプログラミング言語のコードが入っているスタイルを Turducken-Styleと呼び、その生成タスクとデータセットを提案している。 400時間かけて作った中国語と英語のコメントに対応する2,000件のスニペットが含まれるということで価値のあるデータだと思う。
- リポジトリはhttps://github.com/LIANGQINGYUAN/Lyra
- N15News: A New Dataset for Multimodal News Classification [7.8]
我々は、New York Timesから15のカテゴリで生成され、各ニュースにテキスト情報と画像情報の両方を含む新しいデータセット、N15Newsを提案する。 融合方式の異なる新しいマルチタスクマルチモーダルネットワークを設計し,テキストのみのニュース分類よりも多モーダルニュース分類が優れていることを示す実験を行った。
論文 参考訳(メタデータ) (Mon, 30 Aug 2021 15:46:09 GMT) - マルチモーダル(画像+テキスト)なデータセットの提案。200kと大規模でありリアルなニュースであることから有用性が高いと思われる。著者らの実験ではマルチモーダルなデータの利用が精度を改善するとのこと。
- データはPDFからGoogle driveで共有されている。
- AVATAR: A Parallel Corpus for Java-Python Program Translation [37.0]
我々は8,475のプログラミング問題とその解決策をJavaとPythonという2つの人気のある言語で記述したコーパスを提示する。 我々は、スクラッチからトレーニングされたモデルや大規模なソースコードコレクションで事前訓練されたモデルを含む、いくつかのベースラインを提示する。
論文 参考訳(メタデータ) (Thu, 26 Aug 2021 05:44:20 GMT)
- Blind Image Decomposition [53.8]
本稿では,Blind Image Decomposition (BID)について述べる。 雨のような重畳された画像を異なるソースコンポーネントに分解する方法は、現実世界の視覚システムにとって重要なステップだ。 本稿では,Blind Image Decomposition Network (BIDeN) を提案する。
論文 参考訳(メタデータ) (Wed, 25 Aug 2021 17:37:19 GMT)
- LayoutReader: Pre-training of Text and Layout for Reading Order Detection [46.8]
ReadingBankは50万のドキュメントイメージの読み込み順序、テキスト、レイアウト情報を含むベンチマークデータセットである。 この最初の大規模なデータセットは、読み取り順序検出のためのディープニューラルネットワークのパワーを解放する。
論文 参考訳(メタデータ) (Thu, 26 Aug 2021 05:52:32 GMT)- 現実的なデータに対してOCRを行うときに問題となる読み取り順の検出に関する報告。読み出し順序、テキスト、レイアウト情報からなる50万ページ分のベンチマークデータセット「ReadingBank」を構築、テキスト情報をレイアウト情報を併用するアプローチ(LayoutReader)でヒューリスティックな方法を大きく上回る性能を出したとのこと。
- DeepFake MNIST+: A DeepFake Facial Animation Dataset [33.7]
我々は,SOTA画像アニメーションジェネレータによって生成された,DeepFake MNIST+と呼ばれる新しい人間の顔アニメーションデータセットを提案する。 顔のアニメーションビデオ1万本を10種類のアクションで撮影する。
論文 参考訳(メタデータ) (Wed, 18 Aug 2021 02:37:17 GMT)