Are LLMs Good Safety Agents or a Propaganda Engine?

  • Are LLMs Good Safety Agents or a Propaganda Engine? [74.9]
    PSPは、明らかに政治的文脈から、大規模言語モデルの拒絶行動を調べるために構築されたデータセットである。 PSPは、インターネット上で公開されている2つのデータソースから既存の検閲されたコンテンツをフォーマットすることで構築されている。 1)データ駆動型(PSPを暗黙化する)と表現レベルのアプローチ(政治概念を生かした)による7つのLSMにおける政治的感受性の影響,2)インジェクション攻撃(PIA)によるPSPに対するモデル脆弱性について検討する。
    論文  参考訳(メタデータ)   (Fri, 28 Nov 2025 13:36:00 GMT)
  • LLMが応答を拒否する有害コンテンツを通じて検閲有無を調べようという研究。
  • 「1) some models like DeepSeek R1 and Llama 3.1 actively apply censorship policies by refusing to content that have negligible malicious intent; 2) LLMs like Llama 3.1 are quite sensitive to political contexts, in contrast to guardrail models like PromptGuard; 3) models actively enter a state of ethical dilemma/confusion, when attacked with PIAs that contain competing objectives; 4) neither the number of parameters in a model nor the context of countries has an effect on the refusal distributions.」とのこと。

Guided Self-Evolving LLMs with Minimal Human Supervision

  • Guided Self-Evolving LLMs with Minimal Human Supervision [53.1]
    無誘導の自己進化システムは、しばしば訓練として素早く、または劣化する。 R-Fewはガイド付きセルフプレイチャレンジャー(Self-Play Challenger)買収フレームワークで、コンテキスト内接地と混合トレーニングを通じて、軽量な人間の監視を取り入れている。 R-Fewは、数学と一般的な推論ベンチマークで一貫した反復的な改善を実現している。
    論文  参考訳(メタデータ)   (Tue, 02 Dec 2025 07:06:11 GMT)
  • 「we introduce R-FEW, a guided Self-Play Challenger–Solver framework that incorporates lightweight human oversight through in-context grounding and mixed training. At each iteration, the Challenger samples a small set of human-labeled examples to guide synthetic ques- tion generation, while the Solver jointly trains on human and synthetic examples under an online, difficulty-based curriculum. Across math and general reasoning benchmarks, R-Few achieves consistent and iterative improvements.」と最近よく見る共同進化的なフレームワークの提案。とても流行っていて有効なアプローチなのだと思う。

Think in Parallel, Answer as One: Logit Averaging for Open-Ended Reasoning

  • Think in Parallel, Answer as One: Logit Averaging for Open-Ended Reasoning [102.1]
    ThinkMergeは、トレーニング不要でプラグ&プレイのデコード戦略だ。 並列推論トレースをKで実行し、同期点における次のTokenロジットを平均化し、単一のコヒーレントな出力を生成する。
    論文  参考訳(メタデータ)   (Tue, 02 Dec 2025 15:35:31 GMT)
  • 「(i) generate K diverse reasoning traces up to a delimiter token, e g </think> (ii) after the delimiter, decode one shared answer sequence by averaging the next- token logits across all K reasoning contexts at every autoregressive step.」という複数の思考を束ねるTHINKMERGEの提案、性能向上を確認とのこと。