ゼロショットでの文章リライト

  • Towards Universality in Multilingual Text Rewriting [9.0]
    本モデルでは、英語の見習いのみを用いて、非英語言語でゼロショットの感情伝達を行うことができることを示す。 次に、我々のモデルが複数の属性を同時に変更できることを示します。
    論文  参考訳(メタデータ)   (Fri, 30 Jul 2021 16:48:04 GMT)
    • 少ない英語の事例のみを用いることで英語以外の言語でテキストのリライトができるモデルを構築できたとの報告。論文中の日本語の例が興味深い。
    • 翻訳モデルを中間に挟むのは現実的ではあると思うが、このようにゼロショットで結果を出すマルチリンガルモデルには未来を感じる。

難易度を考慮した機械翻訳の評価

  • Difficulty-Aware Machine Translation Evaluation [20.0]
    本稿では,新しい難易度対応機械翻訳評価指標を提案する。 ほとんどのMTシステムで予測できない翻訳は難解なものとして扱われ、最終的なスコア関数に大きな重みが割り当てられる。 提案手法は,MTシステムすべてが非常に競争力がある場合でも良好に機能する。
    論文  参考訳(メタデータ)   (Fri, 30 Jul 2021 02:45:36 GMT)
    • BERTScore をベースに翻訳の難しさ(複数翻訳モデルの一致の悪さ)を考慮したDifficulty-Aware BERTScoreを定義、評価指標として有効に動作することを検証した論文。よく用いられるBLEUは翻訳の品質評価において良好な結果を示さないことが分かっており、自動評価指標の開発は重要である。品質評価において難易度の考慮は自然な発想であり、本論文の難易度の定義も違和感がない。良さそうな指標だと思う。
    • ソースコード等はhttps://github.com/NLP2CT/Difficulty-Aware-MT-Evaluationで公開されている。

メールスレッドの抽象型要約

  • EmailSum: Abstractive Email Thread Summarization [105.5]
    我々は,メールスレッド要約(EmailSum)データセットを抽象化的に開発する。 このデータセットには、人間による注釈付きショート(30ワード)と、2549のメールスレッドからなるロング(100ワード)のサマリーが含まれている。 本研究は,現在の抽象的要約モデルの課題を明らかにするものである。
    論文  参考訳(メタデータ)   (Fri, 30 Jul 2021 15:13:14 GMT)
  • メールスレッド要約のためのデータセットと様々なモデルの評価結果を報告した論文。Extractiveな要約手法、Abstractiveな要約手法の代表的なものに加え、ラベル無しデータを用いるSemi-supervisedな手法も試している。結果的にT5が良好な結果をしめしたとのこと(Semi-supervisedな手法が勝っている評価指標もある)
  • リポジトリはhttps://github.com/ZhangShiyue/EmailSum