The Bitter Lesson Learned from 2,000+ Multilingual Benchmarks
The Bitter Lesson Learned from 2,000+ Multilingual Benchmarks [37.8] 本稿では148カ国の2000以上の多言語(非英語)ベンチマークについて検討する。 英語はこれらのベンチマークで著しく過剰に表現されている。 ほとんどのベンチマークは翻訳よりもオリジナルの言語コンテンツに依存している。 論文参考訳(メタデータ) (Tue, 22 Apr 2025 01:47:37 GMT)
多言語ベンチマークに対する調査報告。「Importantly, simply translating English benchmarks proves insufficient for robust evaluation, localized benchmarks (like CMMLU for Chinese) show substantially higher correlation with human judgments (0.68) than translated equivalents (0.47 and 0.49), highlighting the critical need for culturally and linguistically authentic evaluation resources.」というのはそうだろうと思いつつ、数字で示されると納得感がある。