A Comprehensive Survey on Trustworthiness in Reasoning with Large Language Models 

  • A Comprehensive Survey on Trustworthiness in Reasoning with Large Language Models [35.5]
    Long-CoT推論は、言語理解、複雑な問題解決、コード生成など、さまざまなタスクに進歩している。 信頼に値する推論の5つの中核的な側面 – 真理性、安全性、堅牢性、公正性、プライバシ – に重点を置いています。 全体として、推論技術は、幻覚の緩和、有害なコンテンツ検出、堅牢性の改善を通じてモデルの信頼性を高めることを約束する一方で、最先端の推論モデルは、安全性、堅牢性、プライバシにおける同等またはそれ以上の脆弱性に悩まされることが多い。
    論文  参考訳(メタデータ)   (Thu, 04 Sep 2025 04:12:31 GMT)
  • 信頼性に関するものだが、推論に軸足をおいたサーベイ。
  • リポジトリはGitHub – ybwang119/Awesome-reasoning-safety: This repo is for the safety topic, including attacks, defenses and studies related to reasoning and RL

An AI system to help scientists write expert-level empirical software

  • An AI system to help scientists write expert-level empirical software [25.0]
    品質基準を最大化するために,専門家レベルの科学ソフトウェアを作成するAIシステムを提案する。 このシステムは、外部ソースから複雑な研究アイデアを探求し、統合する際に、専門家レベルの結果を得る。 バイオインフォマティクスでは、公共のリーダーボード上で人間が開発した最上位の手法よりも優れた、40の新しい単一セルデータ解析法が発見された。 疫学では、新型コロナウイルス(COVID-19)の入院を予測するためのCDCアンサンブルやその他の全ての個人モデルを上回る14のモデルを作成した。
    論文  参考訳(メタデータ)   (Mon, 08 Sep 2025 10:08:36 GMT)
  • 科学ソフトウェアを作るシステムの提案、「Our method builds upon ideas from several distinct but related areas of research: Genetic Programming, Generative Programming, the application of LLMs to code, Automated Machine Learning (AutoML), and agents for scientific discovery. Genetic Programming — The idea of automatically evolving computer programs to solve a problem is not new.」と今までの知見を数多く取り入れている。
  • 「A key difference in our system is the use of an LLM to perform intelligent, semantic-aware “mutations” by rewriting the code, which can produce more complex and meaningful variations than the random changes typical in GP.」と書かれている。他分野でも効果を報告しているものがあり、GPとLLMは相性がよさそう。

Entropy2Vec: Crosslingual Language Modeling Entropy as End-to-End Learnable Language Representations

  • Entropy2Vec: Crosslingual Language Modeling Entropy as End-to-End Learnable Language Representations [33.5]
    単言語モデルのエントロピーを利用して言語間表現を導出するフレームワークであるEntropy2Vecを紹介する。 一つの言語で言語モデルを訓練することにより、その予測のエントロピーは他の言語と構造的類似性を反映していると仮定する。 このアプローチは、異なる時間枠に適応し、欠落した値のない、密集した非スパースな言語埋め込みをもたらす。
    論文  参考訳(メタデータ)   (Fri, 05 Sep 2025 12:40:31 GMT)
  • 「TROPY2VEC, a framework that derives language representations based on the entropy of monolingual language models (LMs). Entropy, a measure of uncertainty in information theory, reflects the predictability of a language’s structure.」という面白いアプローチ。

SafeProtein: Red-Teaming Framework and Benchmark for Protein Foundation Models 

  • SafeProtein: Red-Teaming Framework and Benchmark for Protein Foundation Models [48.3]
    本稿では,タンパク質基盤モデル用に設計された最初のレッドチームフレームワークであるSafeProteinを紹介する。 SafeProteinはマルチモーダルプロンプトエンジニアリングを組み合わせ、ビームサーチを生成して、レッドチーム方式を体系的に設計する。 また、手動で構築したレッドチームベンチマークデータセットと包括的な評価プロトコルを含むSafeProtein-Benchをキュレートした。
    論文  参考訳(メタデータ)   (Wed, 03 Sep 2025 17:13:56 GMT)
  • 「• SafeProtein: the first systematic red-teaming approach for protein foundation models, combining multimodal prompt engineering with heuristic beam search, achieving up to a 70% jailbreak success rate against the latest ESM3 model.」というフレームワークと、関連するベンチマークの紹介。
  • リポジトリはGitHub – jigang-fan/SafeProtein: Official Repository for SafeProtein and SafeProtein-Bench

SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents

  • SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.3]
    本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。 我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
    論文  参考訳(メタデータ)   (Mon, 08 Sep 2025 02:07:09 GMT)
  • 「we propose a compact synthetic-data reinforcement learning recipe that adapts reasoningoptimized LLMs into native Autonomous Single-Agent systems for Deep Research. Applied to open-source backbones, our best variant attains 28.7% on Humanity’s Last Exam.」と合成データを活用したDeep Researchエージェント構築フレームワークの提案。

AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning

The Landscape of Agentic Reinforcement Learning for LLMs: A Survey 

  • The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [104.3]
    エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。 本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
    論文  参考訳(メタデータ)   (Tue, 02 Sep 2025 17:46:26 GMT)
  • 「Agentic Reinforcement Learning (Agentic RL) refers to a paradigm in which LLMs, rather than being treated as static conditional generators optimized for single-turn output alignment or benchmark performance, are conceptualized as learnable policies embedded within sequential decision-making loops, where RL endows them with autonomous agentic capabilities, such as planning, reasoning, tool use, memory maintenance, and self-reflection, enabling the emergence of long-horizon cognitive and interactive behaviors in partially observable, dynamic environments.」と定義されるAgenticな強化学習のサーベイ。最近流行りのアプローチだが様々な種類がある。。
  • リポジトリはGitHub – xhyumiracle/Awesome-AgenticLLM-RL-Papers

AI Agents for Web Testing: A Case Study in the Wild 

  • AI Agents for Web Testing: A Case Study in the Wild [20.7]
    本稿では,AIエージェントベースのWebテスティングフレームワークであるWebProberを紹介する。 URLを与えられたWebProberは、Webサイトを自律的に探索し、実際のユーザインタラクションをシミュレートし、バグとユーザビリティの問題を特定し、人間が読めるレポートを生成する。 120の学術的個人Webサイトのケーススタディを通じてWebProberを評価し,29のユーザビリティ問題を明らかにした。
    論文  参考訳(メタデータ)   (Fri, 05 Sep 2025 15:57:16 GMT)
  • WebテストのためのAIエージェント
  • リポジトリはGitHub – TianyiPeng/WebProber

FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games 

  • FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games [56.8]
    我々はFlashAdventureを紹介した。これは、フルストーリーのアーク補完をテストするために設計された、34のFlashベースのアドベンチャーゲームのベンチマークである。 また,ゲームプレイの自動評価装置であるCUA-as-a-Judgeと,長期記憶を利用したエージェントフレームワークであるCOASTを提案する。 実験では、現在のGUIエージェントがフルストーリーのアークに苦しむのに対して、COASTは観察と振る舞いのギャップを埋めることでマイルストーンの完了を改善する。
    論文  参考訳(メタデータ)   (Mon, 01 Sep 2025 01:33:16 GMT)
  • アドベンチャーゲームを利用したベンチマークと「We also propose CUA-as-a-Judge, an automated gameplay evaluator, and COAST, an agentic framework leveraging long-term clue memory to better plan and solve sequential tasks. Experiments show current GUI agents struggle with full story arcs, while COAST improves mile- stone completion by bridging the observation- behavior gap.」という評価システムの提案。現状のSuccess Rateはとても低いが今後どのくらいの速度で改善していくかが楽しみ。
  • プロジェクトサイトはFlashAdventure

Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet

  • Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet [93.0]
    テストタイムスケーリングは、モデルが長い推論チェーンを生成することによって、推論時間計算を増加させる。 本手法は,知識集約型タスクにおいて,高い事実的精度と低幻覚率が不可欠である場合において,まだ有効ではないことを示す。 以上の結果から,テスト時間計算の増大は必ずしも精度の向上には至らず,多くの場合において幻覚の増大につながることが示唆された。
    論文  参考訳(メタデータ)   (Mon, 08 Sep 2025 16:28:25 GMT)
  • 「To summarize, while test-time scaling in reasoning models has led to strong performance in many domains, it is not yet effective for knowledge-intensive tasks. Increasing inference time does not consistently improve factual accuracy, and contrary to expectations, it can even increase hallucinations.」とのこと。LRMを使っていて感じていることと整合的。
  • リポジトリはGitHub – XuZhao0/tts-knowledge: Code and data for “Test-time scaling in reasoning models is not effective for knowledge-intensive tasks yet”