2021年11月16日 – arXiv最新論文の紹介

BitextEdit: 不適切な対訳ペアを修正して利用

BitextEdit: Automatic Bitext Editing for Improved Low-Resource Machine Translation [53.6]
自動編集によりマイニングした対訳ペアを改良することを提案する。提案手法は,5つの低リソース言語ペアと10の翻訳方向に対して,最大8個のBLEUポイントでCCMatrixマイニングバイテキストの品質を向上することを示す。
論文参考訳（メタデータ）参考訳（全文） (Fri, 12 Nov 2021 16:00:39 GMT)
- CCMatrixなど自動で作成された対訳ペア（Bitext）には問題のあるテキストが存在する。それらをフィルタリングするのが通常の対応だが、データ数の減少が問題となる。データフィルタリングするのではなく編集することによって翻訳モデルの性能が向上できたとの報告。
  - 不適切になった理由によっては有効そうという印象。

AnswerSumm: A Manually-Curated Dataset and Pipeline for Answer Summarization [73.9]
Stack OverflowやYahoo!のようなコミュニティ質問回答(CQA)フォーラムには、幅広いコミュニティベースの質問に対する回答の豊富なリソースが含まれている。回答の要約の1つのゴールは、回答の視点の範囲を反映した要約を作成することである。本研究は,専門言語学者による解答要約のための4,631個のCQAスレッドからなる新しいデータセットを導入する。
論文参考訳（メタデータ） (Thu, 11 Nov 2021 21:48:02 GMT)
- Community Question Answeringの回答を要約したデータセット。回答を文単位でラベリング、文をクラスタリング、クラスタ内を要約、クラスタ内の要約を統合というパイプラインを経ておりサイズは4.6K。人がアノテーションしたデータとして大規模とのこと。
- リポジトリはhttps://github.com/alex-fabbri/answersumm、データセットもダウンロード可能

Multimodal Transformer with Variable-length Memory for Vision-and-Language Navigation [79.2]
VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランスフォーマー (Multimodal Transformer) を提案する。
論文参考訳（メタデータ） (Wed, 10 Nov 2021 16:04:49 GMT)
- VLMを一見シンプルなTransformerで解き、優れた性能を達成とのこと。