Large Language Models Do NOT Really Know What They Don’t Know

  • Large Language Models Do NOT Really Know What They Don’t Know [37.6]
    最近の研究は、大言語モデル(LLM)が、その内部表現に事実性信号をエンコードしていることを示唆している。 LLMは、ショートカットやスプリアスアソシエーションに頼ることで、事実エラーを発生させることもできる。
    論文  参考訳(メタデータ)   (Fri, 10 Oct 2025 06:09:04 GMT)
  • Associated Hallucinations (AHs) とUnassociated Hallucinations (UHs)を区別して分析し、「LLMs do not encode truthfulness in their hidden states but only patterns of knowledge recall and utilization, showing that LLMs don’t really know what they don’t know.」と主張。

Evaluating Robustness of Large Language Models Against Multilingual Typographical Errors

  • Evaluating Robustness of Large Language Models Against Multilingual Typographical Errors [45.4]
    大規模言語モデル(LLM)は、ユーザ入力を持つマルチリンガルな実世界のアプリケーションにますます多くデプロイされている。 ほとんどのベンチマークはクリーンな入力を前提としており、LLMの堅牢性は、ほとんど探索されていないタイプミスに委ねられている。 MulTypoは,言語固有のキーボードレイアウトとタイピング行動に基づいて,ヒューマンライクなエラーをシミュレートする多言語型タイポ生成アルゴリズムである。
    論文  参考訳(メタデータ)   (Fri, 10 Oct 2025 16:49:12 GMT)
  • タイプミスがLLMのパフォーマンスにどのくらい影響を与えるかの評価、「Our results show that typos consistently degrade performance, particularly in generative tasks and those requiring reasoning – while the natural language inference task is comparatively more robust.」とのこと。日本語での影響が気になる。
  • リポジトリはGitHub – mainlp/Multypo-Eval

Qwen3Guard Technical Report

  • Qwen3Guard Technical Report [127.7]
    Qwen3Guardは、多言語安全ガードレールモデルである。 生成的Qwen3Guardは、きめ細かい三級判定を可能にする命令追従タスクとして安全分類をキャストする。 Stream Qwen3Guardは、リアルタイム安全監視のためのトークンレベルの分類ヘッドを導入している。
    論文  参考訳(メタデータ)   (Thu, 16 Oct 2025 04:00:18 GMT)
  • 「we present Qwen3Guard, a series of multilingual safety guardrail models with two specialized variants: Generative Qwen3Guard, which casts safety classification as an instruction-following task to enable fine-grained tri-class judgments (safe, controversial, unsafe); and Stream Qwen3Guard, which introduces a token-level classification head for real-time safety monitoring during incremental text generation. Both variants are available in three sizes (0.6B, 4B, and 8B parameters) and support up to 119 languages and dialects, providing comprehensive, scalable, and low-latency safety moderation for global LLM deployments.」とQwen3ベースのガードレールもモデル。
  • リポジトリはGitHub – QwenLM/Qwen3Guard: Qwen3Guard is a multilingual guardrail model series developed by the Qwen team at Alibaba Cloud.