コンテンツへスキップ
- Evaluating Robustness of Large Language Models Against Multilingual Typographical Errors [45.4]
大規模言語モデル(LLM)は、ユーザ入力を持つマルチリンガルな実世界のアプリケーションにますます多くデプロイされている。 ほとんどのベンチマークはクリーンな入力を前提としており、LLMの堅牢性は、ほとんど探索されていないタイプミスに委ねられている。 MulTypoは,言語固有のキーボードレイアウトとタイピング行動に基づいて,ヒューマンライクなエラーをシミュレートする多言語型タイポ生成アルゴリズムである。
論文 参考訳(メタデータ) (Fri, 10 Oct 2025 16:49:12 GMT)
- タイプミスがLLMのパフォーマンスにどのくらい影響を与えるかの評価、「Our results show that typos consistently degrade performance, particularly in generative tasks and those requiring reasoning – while the natural language inference task is comparatively more robust.」とのこと。日本語での影響が気になる。
- リポジトリはGitHub – mainlp/Multypo-Eval