Entropy2Vec: Crosslingual Language Modeling Entropy as End-to-End Learnable Language Representations

  • Entropy2Vec: Crosslingual Language Modeling Entropy as End-to-End Learnable Language Representations [33.5]
    単言語モデルのエントロピーを利用して言語間表現を導出するフレームワークであるEntropy2Vecを紹介する。 一つの言語で言語モデルを訓練することにより、その予測のエントロピーは他の言語と構造的類似性を反映していると仮定する。 このアプローチは、異なる時間枠に適応し、欠落した値のない、密集した非スパースな言語埋め込みをもたらす。
    論文  参考訳(メタデータ)   (Fri, 05 Sep 2025 12:40:31 GMT)
  • 「TROPY2VEC, a framework that derives language representations based on the entropy of monolingual language models (LMs). Entropy, a measure of uncertainty in information theory, reflects the predictability of a language’s structure.」という面白いアプローチ。

SafeProtein: Red-Teaming Framework and Benchmark for Protein Foundation Models 

  • SafeProtein: Red-Teaming Framework and Benchmark for Protein Foundation Models [48.3]
    本稿では,タンパク質基盤モデル用に設計された最初のレッドチームフレームワークであるSafeProteinを紹介する。 SafeProteinはマルチモーダルプロンプトエンジニアリングを組み合わせ、ビームサーチを生成して、レッドチーム方式を体系的に設計する。 また、手動で構築したレッドチームベンチマークデータセットと包括的な評価プロトコルを含むSafeProtein-Benchをキュレートした。
    論文  参考訳(メタデータ)   (Wed, 03 Sep 2025 17:13:56 GMT)
  • 「• SafeProtein: the first systematic red-teaming approach for protein foundation models, combining multimodal prompt engineering with heuristic beam search, achieving up to a 70% jailbreak success rate against the latest ESM3 model.」というフレームワークと、関連するベンチマークの紹介。
  • リポジトリはGitHub – jigang-fan/SafeProtein: Official Repository for SafeProtein and SafeProtein-Bench

SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents

  • SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.3]
    本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。 我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
    論文  参考訳(メタデータ)   (Mon, 08 Sep 2025 02:07:09 GMT)
  • 「we propose a compact synthetic-data reinforcement learning recipe that adapts reasoningoptimized LLMs into native Autonomous Single-Agent systems for Deep Research. Applied to open-source backbones, our best variant attains 28.7% on Humanity’s Last Exam.」と合成データを活用したDeep Researchエージェント構築フレームワークの提案。

AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning

The Landscape of Agentic Reinforcement Learning for LLMs: A Survey 

  • The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [104.3]
    エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。 本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
    論文  参考訳(メタデータ)   (Tue, 02 Sep 2025 17:46:26 GMT)
  • 「Agentic Reinforcement Learning (Agentic RL) refers to a paradigm in which LLMs, rather than being treated as static conditional generators optimized for single-turn output alignment or benchmark performance, are conceptualized as learnable policies embedded within sequential decision-making loops, where RL endows them with autonomous agentic capabilities, such as planning, reasoning, tool use, memory maintenance, and self-reflection, enabling the emergence of long-horizon cognitive and interactive behaviors in partially observable, dynamic environments.」と定義されるAgenticな強化学習のサーベイ。最近流行りのアプローチだが様々な種類がある。。
  • リポジトリはGitHub – xhyumiracle/Awesome-AgenticLLM-RL-Papers

AI Agents for Web Testing: A Case Study in the Wild 

  • AI Agents for Web Testing: A Case Study in the Wild [20.7]
    本稿では,AIエージェントベースのWebテスティングフレームワークであるWebProberを紹介する。 URLを与えられたWebProberは、Webサイトを自律的に探索し、実際のユーザインタラクションをシミュレートし、バグとユーザビリティの問題を特定し、人間が読めるレポートを生成する。 120の学術的個人Webサイトのケーススタディを通じてWebProberを評価し,29のユーザビリティ問題を明らかにした。
    論文  参考訳(メタデータ)   (Fri, 05 Sep 2025 15:57:16 GMT)
  • WebテストのためのAIエージェント
  • リポジトリはGitHub – TianyiPeng/WebProber

FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games 

  • FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games [56.8]
    我々はFlashAdventureを紹介した。これは、フルストーリーのアーク補完をテストするために設計された、34のFlashベースのアドベンチャーゲームのベンチマークである。 また,ゲームプレイの自動評価装置であるCUA-as-a-Judgeと,長期記憶を利用したエージェントフレームワークであるCOASTを提案する。 実験では、現在のGUIエージェントがフルストーリーのアークに苦しむのに対して、COASTは観察と振る舞いのギャップを埋めることでマイルストーンの完了を改善する。
    論文  参考訳(メタデータ)   (Mon, 01 Sep 2025 01:33:16 GMT)
  • アドベンチャーゲームを利用したベンチマークと「We also propose CUA-as-a-Judge, an automated gameplay evaluator, and COAST, an agentic framework leveraging long-term clue memory to better plan and solve sequential tasks. Experiments show current GUI agents struggle with full story arcs, while COAST improves mile- stone completion by bridging the observation- behavior gap.」という評価システムの提案。現状のSuccess Rateはとても低いが今後どのくらいの速度で改善していくかが楽しみ。
  • プロジェクトサイトはFlashAdventure

Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet

  • Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet [93.0]
    テストタイムスケーリングは、モデルが長い推論チェーンを生成することによって、推論時間計算を増加させる。 本手法は,知識集約型タスクにおいて,高い事実的精度と低幻覚率が不可欠である場合において,まだ有効ではないことを示す。 以上の結果から,テスト時間計算の増大は必ずしも精度の向上には至らず,多くの場合において幻覚の増大につながることが示唆された。
    論文  参考訳(メタデータ)   (Mon, 08 Sep 2025 16:28:25 GMT)
  • 「To summarize, while test-time scaling in reasoning models has led to strong performance in many domains, it is not yet effective for knowledge-intensive tasks. Increasing inference time does not consistently improve factual accuracy, and contrary to expectations, it can even increase hallucinations.」とのこと。LRMを使っていて感じていることと整合的。
  • リポジトリはGitHub – XuZhao0/tts-knowledge: Code and data for “Test-time scaling in reasoning models is not effective for knowledge-intensive tasks yet”

Understanding the Influence of Synthetic Data for Text Embedders  / So let’s replace this phrase with insult… Lessons learned from generation of toxic texts with LLMs 

  • Understanding the Influence of Synthetic Data for Text Embedders [52.0]
    まず,Wangらによって提案された合成データの再生と公開を行った。 合成データがモデル一般化をどのように改善するかを批判的に検討する。 本研究は, 汎用インバータ構築における, 現在の合成データ手法の限界を浮き彫りにしたものである。
    論文  参考訳(メタデータ)   (Sun, 07 Sep 2025 19:28:52 GMT)
  • 合成データの効果についてEmbeddingモデルの観点で検証した論文。「we find that training on synthetic examples designed for a particular task can degrade the performance of other tasks, challenging the notion that training on more diverse synthetic data is strictly better. Moreover, we observe that synthetic data leads to sparse improvement across tasks, showing no statistically significant improvement on a majority of MTEB tasks.」とのこと。
  • リポジトリはGitHub – jakespringer/open-synthetic-embeddings
  • <think> So let’s replace this phrase with insult… </think> Lessons learned from generation of toxic texts with LLMs [60.2]
    本稿では, 人為的データに代わる合成毒性データを用いた脱毒訓練モデルの可能性について検討する。 実験によると、合成データに微調整されたモデルは、人間のデータで訓練されたモデルよりも一貫してパフォーマンスが悪くなっている。 根本原因は、致命的な語彙の多様性のギャップとして認識される: LLMは、小さな反復的な侮辱の語彙を用いて、人間の毒性のニュアンスや多様性を捉えるのに失敗する有毒な内容を生成する。
    論文  参考訳(メタデータ)   (Wed, 10 Sep 2025 07:48:24 GMT)
  • こちらも合成データに関する記載があり「Models trained on fully synthetic data significantly underperform those trained on humanannotated data.」としている。モデル崩壊の報告でも合成データのみでは良くない結果を招いていて、これはそうなのだろうと思う。

Language Self-Play For Data-Free Training 

  • Language Self-Play For Data-Free Training [37.2]
    大規模言語モデル(LLM)は,近年,大規模,高品質なトレーニングデータ,強化学習によって急速に進歩している。 しかし、この進歩は根本的なボトルネックに直面している。 我々は、追加データなしでモデルの改善を可能にすることで、この依存を取り除く強化学習手法を提案する。
    論文  参考訳(メタデータ)   (Tue, 09 Sep 2025 05:51:34 GMT)
  • 「Language Self-Play agent operates under two modes: Challenger and Solver. Challenger generates instructions that Solver follows. While Solver learns to improve its responses to the prompts, Challenger learns to make them more difficult. Both modes are instantiated by one model and thus enable perpetual training on increasingly higher-quality self-generated data.」というLanguage Self-Play (LSP)フレームワークの提案。
  • R-Zero: Self-Evolving Reasoning LLM from Zero Data – arXiv最新論文の紹介に似ている?