- JParaCrawl v3.0: A Large-scale English-Japanese Parallel Corpus [30.5]
本稿では,限られた資源しか利用できない言語対である英語と日本語の並列コーパスを大規模に作成する。 JParaCrawl v3.0という新しいウェブベースの英語と日本語のパラレルコーパスを導入している。 我々の新しいコーパスには、2100万以上のユニークな並列文ペアが含まれており、これは以前のJParaCrawl v2.0コーパスの2倍以上である。
論文 参考訳(メタデータ) (Fri, 25 Feb 2022 10:52:00 GMT)- JParaCrawlのバージョン3、このデータで作成されたモデルの性能が大幅に上がっている。パラレルコーパスの公開は非常にありがたい(商用利用はできないなどライセンスには注意が必要)
- 論文に書かれた性能だとFuguMTより上そう。。。強化が必要だな。。。
- プロジェクトサイトはJParaCrawl (ntt.co.jp)
- JParaCrawlのバージョン3、このデータで作成されたモデルの性能が大幅に上がっている。パラレルコーパスの公開は非常にありがたい(商用利用はできないなどライセンスには注意が必要)