2023年2月2日 – arXiv最新論文の紹介

XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked Language Models [87.7]
我々は,言語間のトークン共有を非強調にすることで,非常に大きな多言語語彙に拡張する新たなアプローチを提案する。我々は100万のトークン語彙を持つ多言語言語モデルであるXLM-Vを訓練する。 XLM-Vは、自然言語推論(XNLI)から質問応答(MLQA)、名前付きエンティティ認識(WikiAnn)まで幅広いタスクでXLM-Rより優れています。
論文参考訳（メタデータ） (Wed, 25 Jan 2023 09:15:17 GMT)
多言語モデルで問題（かつ議論）となる語彙に関する論文。100万語彙を持つモデルを学習し優れた性能を出しているのはすごい。
「Most notably, we provide evidence showing that expanding the vocabulary beyond 1M tokens can degrade performance on downstream tasks」というのも興味深い。

Experimenting with an Evaluation Framework for Imbalanced Data Learning (EFIDL) [9.0]
データ不均衡は,ラベルの少ないビッグデータ分析において重要な問題のひとつだ。機械学習アルゴリズムの性能を改善するために、多くのデータバランス法が導入された。我々は不均衡なデータ学習のための新しい評価フレームワークを提案する。
論文参考訳（メタデータ） (Thu, 26 Jan 2023 01:16:02 GMT)
不均衡データセットに対応する手法への評価フレームワークの提案。様々な手法が試されており、その部分も参考になる。（評価手法を間違えているので）不均衡データへの対応手法が非常に効果的と誤った結論を出しがちというのはとっても同意。この論文の結論の一つは「data augmentation does not help improve ML prediction performance」
参考にはなるのだが「Instead, we used the default parameters provided by the scikit-learn library.」というのは…