レイアウト構造を利用した自然言語処理

  • Incorporating Visual Layout Structures for Scientific Text Classification [31.2]
    本研究では,VILA(Visual LAyout Structure)の新たな手法として,ページテキストをテキスト行やテキストブロックにグループ化する手法を言語モデルに導入する。 モデル入力にレイアウト構造の境界を示す特別なトークンを追加するI-VILAアプローチは、トークン分類タスクにおいて+14.5 F1のスコア改善をもたらす可能性があることを示す。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 1 Jun 2021 17:59:00 GMT)
    • レイアウト情報は重要な情報源であり、うまく活用できた時の効果は大きいと思う。
    • データセットとコードはhttps://github.com/allenai/VILAで公開予定とのこと。

GLUEの韓国語版

  • KLUE: Korean Language Understanding Evaluation [43.9]
    韓国語理解評価(KLUE)ベンチマークを紹介する。 KLUEは、韓国の8つの自然言語理解(NLU)タスクのコレクションである。 著作権を尊重しながら、さまざまなソースコーパスから、すべてのタスクをゼロから構築します。
    論文  参考訳(メタデータ)   (Fri, 21 May 2021 05:54:22 GMT)
    • GLUEの韓国語版。XTREMEとか多言語ベンチマークで代替できる可能性はあるとはいえ、英語以外の各国語版ベンチマークの重要性は変わっていないと思う。
    • 日本語版も欲しい(作れという話もあるが)

GPTによるコードの生成

  • Measuring Coding Challenge Competence With APPS [54.2]
    コード生成のベンチマークであるAPPSを紹介する。 私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 20 May 2021 17:58:42 GMT)
    • プログラミングの自動化(コード自動生成)を目指した論文、ベンチマークデータセット
    • GPT-NEOは一定数の問題を解いたようで今後の発展が期待される。

要約用(小説、戯曲、物語)のデータセット

  • BookSum: A Collection of Datasets for Long-form Narrative Summarization [42.3]
    booksumは長文要約のためのデータセットのコレクションである。 我々のデータセットは、小説、戯曲、物語などの文学分野の資料をカバーしています。
    論文  参考訳(メタデータ)   (Tue, 18 May 2021 00:22:46 GMT)
    • 既存の要約データセットにはスタイルやレイアウトなど強力なバイアス(ヒント?)が含まれていることが多い。この問題を解決するデータセットになっているとのこと。
    • https://github.com/salesforce/booksum にデータ等が公開されている。

動画ー3次元メッシュのデータセット

  • SAIL-VOS 3D: A Synthetic Dataset and Baselines for Object Detection and 3D Mesh Reconstruction from Video Data [124.3]
    sail-vos 3d: フレーム毎のメッシュアノテーションを備えた合成ビデオデータセット。 また,時間モデルによる映像データから3次元メッシュを再構成するための最初のベースラインを開発した。
    論文  参考訳(メタデータ)   (Tue, 18 May 2021 15:42:37 GMT)
    • 時間方向も使って動画像からオブジェクト認識をするのは自然な発想。こういうこともできるようになってきたのだと感慨深い。
    • http://sailvos.web.illinois.edu/_site/index.html で公開予定とのこと。

会話ドメインのQAデータセット

  • QAConv: Question Answering on Informative Conversations [85.3]
    本稿では,会話を知識源として利用するQAデータセットであるQAConvを紹介する。 ビジネスメールやパネルディスカッション,作業チャネルなど,情報的な会話に重点を置いています。 合計で、スパンベース、フリーフォーム、および回答不能な質問を含む34,204のQAペアを収集します。
    論文  参考訳(メタデータ)   (Fri, 14 May 2021 15:53:05 GMT)
    • 会話をベースとしたQuestion Answering、1万会話、3万QAと結構な数がある。githubのリーダーボードが盛り上がるか&その手法を要チェック。
    • https://github.com/salesforce/QAConv

コンテキスト対応の機械翻訳

  • Do Context-Aware Translation Models Pay the Right Attention? [61.3]
    コンテキスト対応機械翻訳モデルは文脈情報を活用するように設計されているが、しばしば失敗する。 本稿では,人間の翻訳者が曖昧な単語を解くために使用する文脈について述べる。 SCAT(Supporting Context for Ambiguous Translations)は、14K翻訳のコンテキストワードをサポートする新しい英仏データセットです。 SCATを用いて,支援語の位置的特徴と語彙的特徴をあいまいにするために使用される文脈を詳細に分析する。
    論文  参考訳(メタデータ)   (Fri, 14 May 2021 17:32:24 GMT)
    • 機械翻訳における文脈の取り込みの研究とSCAT(Supporting Context for Ambiguous Translations)データセットの紹介
    • 現時点ではデータセットは公開されていない?

Book Corpusのデータシート

  • Addressing “Documentation Debt” in Machine Learning Research: A Retrospective Datasheet for BookCorpus [1.3]
    BookCorpusは、大規模な言語モデルをトレーニングするための人気のテキストデータセットです。 BookCorpusは多くの書籍の著作権制限に違反している。 BookCorpusはジャンル表現において大きな歪みを見せている。
    論文  参考訳(メタデータ)   (Tue, 11 May 2021 17:59:23 GMT)
    • Book Corpusデータセットの問題を指摘する論文。正直、ライセンス的に大丈夫か不安になるデータセットは少なくないので注意すべき内容。

理由を説明するベンチマーク・モデル

  • e-ViL: A Dataset and Benchmark for Natural Language Explanations in Vision-Language Tasks [52.9]
    説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。 また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。 画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
    論文  参考訳(メタデータ)   (Sat, 8 May 2021 18:46:33 GMT)
    • 画像+自然言語の予測に対して、その理由を説明するためのデータセットとモデル。例えば、「人がぬいぐるみのライオンを抱えている画像」「男性はリアルなライオンを抱えている」「矛盾」という組み合わせに対し「説明:ぬいぐるみのライオンはリアルのライオンではない」がペアになっているよう。
    • https://github.com/maximek3/e-ViL

絵文字の変遷

  • Semantic Journeys: Quantifying Change in Emoji Meaning from 2012-2018 [66.3]
    絵文字のセマンティクスが時間とともにどのように変化するかに関する最初の縦断的研究を行い、計算言語学から6年間のtwitterデータに適用した。 絵文字のセマンティックな発達において5つのパターンを識別し、抽象的な絵文字がより少ないほど意味的変化を起こす可能性が高くなることを示す。 絵文字とセマンティクスに関する今後の作業を支援するために、私たちは、絵文字のセマンティックな変化を調べるために誰でも使用できるウェブベースのインターフェイスとともに、データを公開します。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 4 May 2021 08:28:06 GMT)