コンテンツへスキップ
- Dr. Zero: Self-Evolving Search Agents without Training Data [34.9]
我々は,検索エージェントがトレーニングデータなしで効果的に自己開発できるフレームワークであるDr. Zeroを紹介した。 特に,提案者が多様な質問を生成する自己進化フィードバックループを設計し,同じベースモデルから問題解決者を訓練する。 トレーニング効率を向上させるため、ホップ群相対ポリシー最適化(HRPO)も導入する。
論文 参考訳(メタデータ) (Sun, 11 Jan 2026 20:27:55 GMT)
- 「We introduced Dr. Zero, a data-free self-evolution framework that enhances the reasoning and search capabilities of language agents. By utilizing an iterative proposer-solver training paradigm, Dr. Zero autonomously generates diverse and increasingly challenging open-domain questions without relying on training data. In addition, the proposed HRPO effectively addresses the computational bottlenecks of multi-turn tool use, enabling efficient training by clustering structurally similar queries to estimate advantages.」とproposerとsolverを分けるアプローチ。
- リポジトリはGitHub – facebookresearch/drzero: Dr. Zero Self-Evolving Search Agents without Training Data
- Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning [97.3]
我々は,動詞化可能な潜在推論により,コンパクトかつ高性能な計画を実現する効率的な推論フレームワークであるFast-ThinkActを提案する。 様々な具体的操作と推論ベンチマークの実験により、Fast-ThinkActは最大89.3%の推論遅延で強いパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (Wed, 14 Jan 2026 18:59:59 GMT)
- 「How to preserve reasoning capability while enabling compact representations that properly capture essential spatial-temporal dynamics remains a crucial challenge for reasoning VLA models. In this paper, we propose Fast-ThinkAct, an efficient embodied reasoning framework for Vision-Language-Action tasks that achieves compact yet expressive planning through verbalizable latent reasoning.」と推論過程をコンパクトにするフレームワークの提案
- プロジェクトサイトはFast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning
- All That Glisters Is Not Gold: A Benchmark for Reference-Free Counterfactual Financial Misinformation Detection [67.9]
RFC Benchは、現実的なニュースの下で財務的な誤情報に関する大規模な言語モデルを評価するためのベンチマークである。 このベンチマークでは、2つの補完的なタスクが定義されている。
論文 参考訳(メタデータ) (Wed, 07 Jan 2026 18:18:28 GMT)
- 金融の誤情報検知を目指したベンチマーク。「The benchmark defines two complementary tasks: reference-free misinformation detection and comparison-based diagnosis using paired original–perturbed inputs. Experiments reveal a consistent pattern: performance is substantially stronger when comparative con- text is available, while reference-free settings expose significant weaknesses, including un- stable predictions and elevated invalid outputs.
These results indicate that current models struggle to maintain coherent belief states without external grounding. By highlighting this gap, RFC-BENCH provides a structured testbed for studying reference-free reasoning and advancing more reliable financial misinformation detection in real-world settings.」
- リポジトリはGitHub – lzw108/FMD: This is a continuous project on Financial Misinformation Detection (FMD).