コンテンツへスキップ
ERNIE-Code: Beyond English-Centric Cross-lingual Pretraining for Programming Languages [37.6] 同じプログラミング言語(PL)を扱うソフトウェアエンジニアは、異なる自然言語(NL)を話し、その逆も話す。 近年の研究では、コンピュータプログラムにおける生成前訓練の有効性が実証されているが、それらは常に英語中心である。 ERNIE-Codeは116個のNLと6個のPLのための統合事前学習言語モデルである。論文 参考訳(メタデータ) (Tue, 13 Dec 2022 17:21:44 GMT)
マルチリンガルなcode-to-text, text-to-code, code-to-code, text-to-text
translate-trainとzero-shotの比較も興味深い。
Long-Document Cross-Lingual Summarization [15.8] 言語間の要約は、ある言語で与えられた文書に対して、ある言語で要約を生成することを目的としている。 長文書における CLS 研究を促進するため,最初の長文書 CLS データセットである Perseus を構築した。 ペルセウスの文書の平均の長さは2,000以上のトークンである。論文 参考訳(メタデータ) (Thu, 1 Dec 2022 15:24:16 GMT)
長文をクロスリンガルで要約するためのデータセット作成と様々な手法の比較。中国語を対象とした成果だが、このような問題は日本語でも重要
mBART+LEDを用いたEnd-to-Endモデルが最も高性能との結果で驚いた。日本語版を作りたくなってくる…
QAmeleon: Multilingual QA with Only 5 Examples [71.8] 数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。 我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。 言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。論文 参考訳(メタデータ) (Tue, 15 Nov 2022 16:14:39 GMT)
多言語QAモデル実現のための合成データ作成においてPLM+promptを使う手法の提案
DiaASQ: A Benchmark of Conversational Aspect-based Sentiment Quadruple Analysis [84.8] そこで本稿では,対話におけるターゲット・アスペクト・オピニオン・センタティメントの感情四重項を検出するために,対話的側面に基づく感情四重項分析,すなわちDiaASQを導入する。 大規模で高品質な中国語データセットを手動で構築し、手動翻訳による英語版データセットも取得する。 エンドツーエンドの四重項予測を効果的に実行し、より優れた発話四重項抽出のために、リッチな対話特化特徴表現と談話特徴表現を組み込むことに成功している。論文 参考訳(メタデータ) (Thu, 10 Nov 2022 17:18:20 GMT)
対話の「target-aspect-opinion-sentiment」を判別するためのデータセット。規模は1000対話、7452発話。中国語のデータで構築されたうえで、手動で英語に翻訳されたデータが存在するとのことで様々な問題設定で使用できそう。
プロジェクトサイトはhttps://github.com/unikcc/DiaASQとのことだが、現時点では404
Multilingual Multimodality: A Taxonomical Survey of Datasets, Techniques, Challenges and Opportunities [10.7] マルチ言語とマルチモーダル(MultiX)ストリームの統合について検討する。 我々は、並列アノテーションで研究された言語、金または銀のデータを調べ、これらのモダリティと言語がモデリングにおいてどのように相互作用するかを理解する。 モデリングアプローチの長所と短所とともに、どのシナリオを確実に使用できるのかをよりよく理解するために、モデリングアプローチについて説明します。論文 参考訳(メタデータ) (Sun, 30 Oct 2022 21:46:01 GMT)
Crosslingual Generalization through Multitask Finetuning [80.9] マルチタスク誘導ファインチューニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。 MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。 英語のプロンプトを用いた英語タスクにおける多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。論文 参考訳(メタデータ) (Thu, 3 Nov 2022 13:19:32 GMT)
Multitask prompted finetuningの多言語への適用について詳細に調べた論文。「We conjecture that the models are learning higher-level capabilities that are both task- and languageagnostic.」は非常に興味深い(と同時に驚き)。
プロジェクトサイトはbigscience-workshop/xmtf: Crosslingual Generalization through Multitask Finetuning (github.com)
Beyond English-Centric Bitexts for Better Multilingual Language Representation Learning [99.4] 我々は、新しいサンプリング戦略と組み合わさって、英語中心のbitextsを超えることによって、モデルサイズにおけるパフォーマンスが大幅に向上することを示す。 XY-LENT XL は XLM-RXXL より優れ,mT5 XXL との競合性能は5倍,6倍小さい。論文 参考訳(メタデータ) (Wed, 26 Oct 2022 17:16:52 GMT)mBERTやXLM-Rより優れた多言語モデルの提案
Language Models are Multilingual Chain-of-Thought Reasoners [83.4] 本稿では,250の小学校数学問題を10の類型的多言語に手動で翻訳することで,多言語学級数学のベンチマークを導入する。 MGSM問題をチェーン・オブ・ソートにより解く能力は,モデルスケールの増大とともに出現する。 言語モデルの多言語推論能力は他のタスクにも及んでいることを示す。論文 参考訳(メタデータ) (Thu, 6 Oct 2022 17:03:34 GMT)GSM8Kデータセットから,250の問題を手動で翻訳して Multilingual Grade School Math (MGSM)ベンチマークを作成し多言語における大規模言語モデルの性能評価 EN-COT > Native-COTである点は興味深い(そして翻訳を介するのがもっとの性能が高いのも…) リポジトリはgoogle-research/url-nlp (github.com)
GLM-130B: An Open Bilingual Pre-trained Model [40.6] 我々は,130億のパラメータを持つバイリンガル(英語と中国語)事前学習言語モデルであるGLM-130Bを紹介する。 100Bスケールのモデルを少なくともGPT-3と同程度にオープンソース化する試みである。 本稿では, GLM-130Bの設計選択, 効率と安定性の両面でのトレーニング戦略, エンジニアリングの取り組みを含む, GLM-130B のトレーニングプロセスを紹介する。論文 参考訳(メタデータ) (Wed, 5 Oct 2022 17:34:44 GMT)