Steering MoE LLMs via Expert (De)Activation 

  • Steering MoE LLMs via Expert (De)Activation [118.2]
    LLM(Large Language Models)におけるMixture-of-Experts (MoE)は、各トークンを専用のFeed-Forward Networks (FFN)のサブセットを介してルーティングする。 我々は,行動関連の専門家を検知し,制御することで,MoEモデルをステアリングするフレームワークであるSteerMoEを提案する。
    論文  参考訳(メタデータ)   (Thu, 11 Sep 2025 17:55:09 GMT)
  • MoEを操作し望ましい(または望ましくない)動作に近づける手法の提案。ネガティブな方向性で「Critically, we are also exposing a novel dimension of “Alignment Faking” in LLMs (Greenblatt et al , 2024; Wang et al , 2024), where alignment is concentrated in a subset of experts, neglecting alternate routing paths that can catastrophically bypass alignment when triggered. We argue that, just as safety alignment must extend beyond the first few tokens (Qi et al , 2025), it must also go deeper than just a few expert pathways, ensuring robustness across the entire model routing topology.」はその通りだと思う。
  • リポジトリはGitHub – adobe-research/SteerMoE: A framework for steering MoE models by detecting and controlling behavior-linked experts.

A Comprehensive Survey on Trustworthiness in Reasoning with Large Language Models 

  • A Comprehensive Survey on Trustworthiness in Reasoning with Large Language Models [35.5]
    Long-CoT推論は、言語理解、複雑な問題解決、コード生成など、さまざまなタスクに進歩している。 信頼に値する推論の5つの中核的な側面 – 真理性、安全性、堅牢性、公正性、プライバシ – に重点を置いています。 全体として、推論技術は、幻覚の緩和、有害なコンテンツ検出、堅牢性の改善を通じてモデルの信頼性を高めることを約束する一方で、最先端の推論モデルは、安全性、堅牢性、プライバシにおける同等またはそれ以上の脆弱性に悩まされることが多い。
    論文  参考訳(メタデータ)   (Thu, 04 Sep 2025 04:12:31 GMT)
  • 信頼性に関するものだが、推論に軸足をおいたサーベイ。
  • リポジトリはGitHub – ybwang119/Awesome-reasoning-safety: This repo is for the safety topic, including attacks, defenses and studies related to reasoning and RL

An AI system to help scientists write expert-level empirical software

  • An AI system to help scientists write expert-level empirical software [25.0]
    品質基準を最大化するために,専門家レベルの科学ソフトウェアを作成するAIシステムを提案する。 このシステムは、外部ソースから複雑な研究アイデアを探求し、統合する際に、専門家レベルの結果を得る。 バイオインフォマティクスでは、公共のリーダーボード上で人間が開発した最上位の手法よりも優れた、40の新しい単一セルデータ解析法が発見された。 疫学では、新型コロナウイルス(COVID-19)の入院を予測するためのCDCアンサンブルやその他の全ての個人モデルを上回る14のモデルを作成した。
    論文  参考訳(メタデータ)   (Mon, 08 Sep 2025 10:08:36 GMT)
  • 科学ソフトウェアを作るシステムの提案、「Our method builds upon ideas from several distinct but related areas of research: Genetic Programming, Generative Programming, the application of LLMs to code, Automated Machine Learning (AutoML), and agents for scientific discovery. Genetic Programming — The idea of automatically evolving computer programs to solve a problem is not new.」と今までの知見を数多く取り入れている。
  • 「A key difference in our system is the use of an LLM to perform intelligent, semantic-aware “mutations” by rewriting the code, which can produce more complex and meaningful variations than the random changes typical in GP.」と書かれている。他分野でも効果を報告しているものがあり、GPとLLMは相性がよさそう。