CREAK: 常識を推論するためのデータセット

  • CREAK: A Dataset for Commonsense Reasoning over Entity Knowledge [32.6]
    エンティティ知識に関するコモンセンス推論のためのテストベッドであるCREAKを紹介する。 私たちのデータセットは、真か偽かのエンティティに関する主張で構成されています。 クラウドワーカーはこれらのステートメントを簡単に見つけ出すことができ、データセット上での人間のパフォーマンスは高い。
    論文  参考訳(メタデータ)   (Fri, 3 Sep 2021 17:56:40 GMT)
    •  Commonsense reasoning タスクのデータセット、データ数は約13Kで単文のクレームとその真偽(+説明文)で構成される。文を「読解」しなくても解けるような特徴(アーティファクト)が無いか丁寧に確認されているなど品質の高いデータとの印象。
      • ただ、CREAKが何の略か不明だった・・・
    • WEBサイトはhttps://www.cs.utexas.edu/~yasumasa/creak/

英語文書検索タスクを非英語に転送

  • Cross-Lingual Training with Dense Retrieval for Document Retrieval [56.3]
    我々は、英語のアノテーションから複数の非英語言語への文書ランク付けのための異なる転送手法について検討する。 6つの言語(中国語、アラビア語、フランス語、ヒンディー語、ベンガル語、スペイン語)におけるテストコレクションの実験。 弱教師付きターゲット言語転送は、世代ベースターゲット言語転送に対する競合性能をもたらすことが判明した。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 3 Sep 2021 17:15:38 GMT)
    • 英語のデータ+mBERTで作ったモデルが他言語のタスクでも有効であることを示した報告。色々なタスクで同様の性質が報告されているが、中国語、アラビア語、フランス語、ヒンディー語、ベンガル語、スペイン語と複数言語の文書検索タスクで結果を確認しており参考になる。