2022年3月1日 – arXiv最新論文の紹介

JParaCrawl v3.0: 日英パラレルコーパス

JParaCrawl v3.0: A Large-scale English-Japanese Parallel Corpus [30.5]
本稿では,限られた資源しか利用できない言語対である英語と日本語の並列コーパスを大規模に作成する。 JParaCrawl v3.0という新しいウェブベースの英語と日本語のパラレルコーパスを導入している。我々の新しいコーパスには、2100万以上のユニークな並列文ペアが含まれており、これは以前のJParaCrawl v2.0コーパスの2倍以上である。
論文参考訳（メタデータ） (Fri, 25 Feb 2022 10:52:00 GMT)
- JParaCrawlのバージョン3、このデータで作成されたモデルの性能が大幅に上がっている。パラレルコーパスの公開は非常にありがたい（商用利用はできないなどライセンスには注意が必要）
  - 論文に書かれた性能だとFuguMTより上そう。。。強化が必要だな。。。
- プロジェクトサイトはJParaCrawl (ntt.co.jp)

Hierarchical Perceiver [99.3]
Perceiversのような一般的な知覚システムは任意の組み合わせで任意のモダリティを処理できる。これらのモデルにある程度の局所性を導入することができ、その効率を大幅に改善できることを示す。
論文参考訳（メタデータ）参考訳（全文） (Tue, 22 Feb 2022 13:39:14 GMT)
- DeepMindのPerceiverに関する論文。フラット化(一定レベルでの局所性の保存）＋チャンク分割が重要のように読めるが、マルチモーダル・前処理不要で強力な性能を維持しながら画像系処理の性能を改善というのは本当だろうか。。。

Zero-shot Cross-lingual Transfer of Prompt-based Tuning with a Unified Multilingual Prompt [98.3]
我々はUniPromptと呼ばれるすべての言語に対して統一的なプロンプトを使用する新しいモデルを提案する。統一的なプロンプトは多言語 PLM による計算であり、言語に依存しない表現を生成する。提案手法は、異なる言語間で強いベースラインを著しく上回ることができる。
論文参考訳（メタデータ） (Wed, 23 Feb 2022 11:57:52 GMT)
- template towerとcontext towerを分けmultilingual PLMの下層レイヤーで初期化、それを融合するtowerは同上層レイヤーで初期化、label wordを言語に依存しない形で初期化するアプローチとのこと。
  - なぜこれでうまくいくのか納得しかねるが、結果は有望に見える。
- コード、データともに公開予定の事だが、現状ではリンクが見つからなかった。