CrossLingual – arXiv最新論文の紹介

XToM: Exploring the Multilingual Theory of Mind for Large Language Models

XToM: Exploring the Multilingual Theory of Mind for Large Language Models [58.0]
LLMにおける既存の心の理論の評価は英語に限られている。 XToMは5言語にまたがってToMを評価する,厳格に検証された多言語ベンチマークである。以上の結果から,LLMが言語的文脈にまたがって人間的なメンタライゼーションを再現する能力に限界があることが判明した。
論文参考訳（メタデータ） (Tue, 03 Jun 2025 05:23:25 GMT)
多言語でのLLM比較、「LLMs are equipped with multilingual understanding ability but fail in multi- lingual ToM reasoning tasks.」と結論。深い部分での言語間差異は残っているよう（とはいえ、一昔前に比べて差異は縮小しているようにも見える）
リポジトリはGitHub – HKUST-KnowComp/XToM: Data and Code for paper “X-ToM: Exploring the Multilingual Theory of Mind for Large Language Models”

XRAG: Cross-lingual Retrieval-Augmented Generation

XRAG: Cross-lingual Retrieval-Augmented Generation [21.5]
XRAGは,LLMの生成能力を評価するために設計されている。 XRAGは最近のニュース記事から構築されており、質問に答えるために外部の知識が必要であることを保証している。
論文参考訳（メタデータ） (Thu, 15 May 2025 08:47:55 GMT)
クロスリンガル設定のRAGベンチマーク。LLMが内部知識からは答えられないように構築されている。
「(3) We find that in the monolingual retrieval setting, all evaluated LLMs face issues with Response Language Correctness an issue that has received little attention from the research community. (4) In the multilingual retrieval setting, the primary challenge for LLMs does not lie in non- English generation, but in reasoning over retrieved information across languages.」と意外に難しく、興味深い結果になっている。
データを見てみたいところ。

Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization

Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.7]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。近年の研究では、LCSタスクにおけるLLMの性能は、わずかな設定でも満足できないことが示されている。
論文参考訳（メタデータ） (Sat, 26 Oct 2024 00:39:44 GMT)
LLMを用いたクロスリンガルでの要約方法の検証。低リソースな言語において、SUMMARIZATION, IMPROVEMENT, TRANSLATION and REFINEMENT (SITR)の４段階からなるfour-step zero-shot SITR architectureが有効との結果。

CroCoSum

CroCoSum: A Benchmark Dataset for Cross-Lingual Code-Switched Summarization [13.9]
近年,大規模Webマイニングデータセットの利用可能化により,言語間要約(CLS)への関心が高まっている。我々はCroCoSumを紹介した。CroCoSumは、言語間のコード変更による技術ニュースの要約のデータセットである。
論文参考訳（メタデータ） (Tue, 7 Mar 2023 17:52:51 GMT)
クロスリンガルな要約データセット。英語→中国語。
「テクノロジ関連のニュースを共有するオンラインプラットフォーム」が情報源とのこと。（日本語でも近しいサイトを使って作れなくはなさそうに思うが、ライセンス関連で難しいかもとも思う）
異なるモデルの比較結果ではEnd-to-Endの手法が翻訳を介す手法を上回り、mBART > mT5、 GPT-3はE2EのmT5に及ばない結果になっている。
リポジトリはhttps://github.com/RosenZhang/CroCoSumとのことだが、現時点では404

コンタミとCross Lingual性

Language Contamination Explains the Cross-lingual Capabilities of English Pretrained Models [79.4]
一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。これにより、大規模なデータセットで数十億の外国語トークンが生成される。そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
論文参考訳（メタデータ）参考訳（全文） (Sun, 17 Apr 2022 23:56:54 GMT)
- 英語で事前学習された事前学習モデルが他の言語でも有効なことがある理由をデータのコンタミによるものであると指摘した論文。
- クローリング結果の言語を統一するクレンジングは困難で妥当な内容と思う。（とはいえ＆完全否定されているわけではないが）言語間でも共通な構造みたいなものを捉えていて欲しかった気もする。

Cross-Lingual Summarizationのサーベイ

A Survey on Cross-Lingual Summarization [43.9]
言語間の要約は、異なる言語における文書の1つの言語で要約を生成するタスクである。グローバル化の背景から、この課題は計算言語学コミュニティから注目を集めている。この分野におけるデータセット、アプローチ、課題に関する最初の体系的批判的レビューを提示する。
論文参考訳（メタデータ） (Wed, 23 Mar 2022 16:24:21 GMT)
- クロスリンガル要約のサーベイ。日本語にとっては極めて重要なタスクだと思う。
  - 英語のドキュメントに対して日本語の抄訳がある事例は多く、データセットを作りやすいのではないかと思ったりもする。。。

Cross-lingual Transferにおける英語以外の有効性

Revisiting the Primacy of English in Zero-shot Cross-lingual Transfer [39.4]
ゼロショット・クロスランガル・トランスファーは実用的な解決策として浮上している。人気のあるゼロショットベンチマークによって強化されたように、英語は転送のための主要なソース言語である。ドイツ語やロシア語のような他の高リソース言語は、より効果的に転送されることがよくあります。
論文参考訳（メタデータ） (Wed, 30 Jun 2021 16:05:57 GMT)
- ゼロショットで多言語モデルを構築する場合は英語をベースにすることが多いがドイツ語やロシア語が有効なことがあるという興味深い報告。特にターゲットの言語が多様な場合に有効とのこと。機械翻訳を行ってなお有効とのことで意外な結果。事前学習モデルの性質なのか、言語特性によるものなのか非常に面白い。

XLM-E: ELECTRA型の事前学習モデル

XLM-E: Cross-lingual Language Model Pre-training via ELECTRA [46.8]
我々は,多言語コーパスと並列コーパスの両方で,XLM-Eという名前のモデルを事前学習する。我々のモデルは、様々な言語間理解タスクにおけるベースラインモデルよりもはるかに低コストで性能を向上する。
論文参考訳（メタデータ） (Wed, 30 Jun 2021 15:45:07 GMT)
- 計算コストの低い事前学習モデル。XQuADやPAWS-Xなどcross lingualなタスクで100倍の計算コストがかかるXLM_Rを超える優れた性能。
- Microsoftの成果。そのうち、https://github.com/microsoft/unilm　にコードが公開されたりするのだろうか。

Decomposed attentionを使ったマルチリンガル表現

Learning Multilingual Representation for Natural Language Understanding with Enhanced Cross-Lingual Supervision [42.7]
本稿では,MA(Mixed Attention)の代替として,DA(Decomposed attention)というネットワークを提案する。 DAは言語内注意(IA)と言語間注意(CA)から構成されており、それぞれ言語内および言語間監督をモデル化している。様々な言語間自然言語理解タスクの実験により、提案したアーキテクチャと学習戦略がモデルの言語間移動性を大幅に改善することが示された。
論文参考訳（メタデータ） (Wed, 9 Jun 2021 16:12:13 GMT)
- mBERTのようなマルチリンガルモデルによってゼロショットで他言語に対応可能なモデルを構築できることが知られている。バイリンガルな言語間コーパス（翻訳文によるコーパス）の情報を活用してより良い事前学習モデルを作ったという報告。

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31