TranslateLocally: CPUで動作する高速な機械翻訳

  • TranslateLocally: Blazing-fast translation running on the local CPU [11.0]
    translateLocallyは10年前のハードウェアでもクラウドのような翻訳速度と品質を提供する。 オープンソースソフトウェアはMarianをベースにしており、Linux、Windows、CPUで動作する。
    論文  参考訳(メタデータ)   (Tue, 21 Sep 2021 14:20:39 GMT)
    • Marian-NMTをベースにしたCPUで高速に動作可能な機械翻訳ソフトウェアの紹介。現状日本語は対応していなさそうなのでFuguMTで集めたコーパス使って参加してみようかと思わなくもない。

GPT-3+人間のフィードバックを用いた再帰的な要約モデル

  • Recursively Summarizing Books with Human Feedback [10.1]
    本論では,小説全体の抽象的要約の課題について述べる。 タスクの小さな部分でトレーニングされたモデルを使用して、より広範なタスクに対するフィードバックの提供を支援します。 書籍長要約のための最近のBookSumデータセットについて,最先端の成果を得た。
    論文  参考訳(メタデータ)   (Wed, 22 Sep 2021 17:34:18 GMT)
    • 本のセクションを要約、それらをさらに要約して本全体の要約を作成する方針の研究。それ自体はシンプルなアプローチだが、GPT-3(family)の使用、人間のラベラーのフィードバックを強化学習に利用など詳細な手法が興味深い。
    • 「We chose narrative fiction books due to our belief that they were the most difficult to summarize, which is supported by our later qualitative findings (Appendix J).」というのも面白い。ELYZA digestとかでも難しいとされていた気がする。

ゼロショットでのドキュメントレベルニューラル機械翻訳能力の転送

  • Multilingual Document-Level Translation Enables Zero-Shot Transfer From Sentences to Documents [19.6]
    ドキュメントレベルのニューラルマシン翻訳(DocNMT)は、クロスセンスコンテキストを取り入れたコヒーレントな翻訳を提供する。 本研究では,DocNMTにおける文脈モデリングが,ゼロショット方式で文から文書への変換可能かどうかについて検討する。
    論文  参考訳(メタデータ)   (Tue, 21 Sep 2021 17:49:34 GMT)
    • Document-level Neural Machine Translationの実現には(文ではなく)文書のパラレルコーパスが不足しているという問題がある。文書レベルのコーパスが充実している言語のDocNMTとSenNMT(文レベルのニューラル機械翻訳)、文書レベルのコーパスが不足している言語のSenNMTを組み合わせて、文書レベルのコーパスが不足している言語のDocNMTが作成可能とした報告。
      • Docレベルの評価ではBLEUがうまく機能しないことを含めて面白い結果。