2024年1月25日 – arXiv最新論文の紹介

The Unreasonable Effectiveness of Easy Training Data for Hard Tasks [92.1]
現在の言語モデルは、ハードデータで訓練されたモデルと同様に、比較的容易にハードデータから一般化されることが多い。ハードデータ上でモデルパフォーマンスを最も気にしている場合でも、ハードデータよりも簡単なデータを収集してトレーニングする方がよいことを示す。
論文参考訳（メタデータ） (Fri, 12 Jan 2024 18:36:29 GMT)
易しい問題でチューニングしたモデルが難しい問題に対してもかなり有効であるとの報告。とっても面白い性質。
「Our findings suggest that the scalable oversight problem may be easier than previously thought.」とあるものの意図せず、強力なものを作ってしまう危険性もあるような。。（参考：Fugu-MT 論文翻訳(概要): Measuring Progress on Scalable Oversight for Large Language Models (fugumt.com)）
リポジトリはallenai/easy-to-hard-generalization: Code for the arXiv preprint “The Unreasonable Effectiveness of Easy Training Data” (github.com)

Natural Language Processing for Dialects of a Language: A Survey [59.8]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (Thu, 11 Jan 2024 03:04:38 GMT)
方言の取り扱いに関するサーベイ
英語、アラビア語、ドイツ語が対象とのことだったが、日本語での研究も触れられていた。