- LongCat-Flash-Thinking-2601 Technical Report [134.9]
LongCat-Flash-Thinking-2601はオープンソースのMixture-of-Experts (MoE)推論モデルである。 LongCat-Flash-Thinking-2601は、幅広いエージェントベンチマーク上で、オープンソースモデル間の最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (Fri, 23 Jan 2026 13:20:09 GMT) - 非常に高性能なKIMI K 2.5(Kimi K2.5: Visual Agentic Intelligence | Technical Report、GitHub – meituan-longcat/LongCat-Flash-Thinking-2601)の発表もあったがLongCatからも最新モデルのテクニカレポートが公表されている。
- モデルはmeituan-longcat/LongCat-Flash-Thinking-2601 · Hugging Face
Genie 3, Advancing Open-source World Models, WorldBench
動画生成モデル → world modelへの進化は技術的に可能かどうかなど様々な論点があるが先週のGenie 3 — Google DeepMindは大きなニュースだったと思う。同時期のLingBot-Worldなどを含め検証が待たれる。ベンチマークも様々出ているが先週も物理的特性(定数や摩擦などパラメータ)を含めて評価可能なWorldBenhが出ていた。
- Advancing Open-source World Models [92.2]
LingBot-World(リンク)は、ビデオ生成から派生したオープンソースのワールドシミュレータである。 広い範囲の環境において、高い忠実度と堅牢なダイナミクスを維持している。 リアルタイムの対話性をサポートし、毎秒16フレームを生成すると1秒未満のレイテンシを実現する。
論文 参考訳(メタデータ) (Wed, 28 Jan 2026 12:37:01 GMT) - Ant groupによるビデオ生成系world model。「Beyond visual synthesis, LingBot-World serves as a practical testbed for downstreams [1, 6, 20, 26, 29, 57, 58, 78, 92]. It supports promptable world events, allowing users to semantically steer global conditions and local dynamics via textual prompts. Furthermore, it facilitates the training of action agents and enables consistent 3D reconstruction from generated videos [34, 50, 83], validating its geometric integrity.」と言っているのがすごい。公開モデルであるのも特徴的。
- リポジトリはGitHub – Robbyant/lingbot-world: Advancing Open-source World Models、プロジェクトサイトはGitHub – Robbyant/lingbot-world: Advancing Open-source World Models
- WorldBench: Disambiguating Physics for Diagnostic Evaluation of World Models [17.8]
We introduced WorldBench, a video-based benchmark designed for concept-specific, disentangled evaluation。 WorldBenchは、ビデオ生成と世界モデルの物理的推論能力を厳格に評価するための、より微妙でスケーラブルなフレームワークを提供する。
論文 参考訳(メタデータ) (Thu, 29 Jan 2026 05:31:02 GMT) - 「Our benchmark leverages both an intuitive physics and physical parameter estimation subset to provide greater insight into world model performance.」と物理特性(法則や定数等)を含めたベンチマーク。
- プロジェクトサイトはWorldBench: How Close are World Models to the Physical World?
GUIGuard: Toward a General Framework for Privacy-Preserving GUI Agents
- GUIGuard: Toward a General Framework for Privacy-Preserving GUI Agents [38.4]
GUIはよりリッチでアクセスしやすいプライベート情報を公開し、プライバシーリスクはシーケンシャルなシーンにわたるインタラクションの軌跡に依存する。 本稿では,プライバシ認識,プライバシ保護,保護下のタスク実行という,プライバシ保護GUIエージェントのための3段階フレームワークを提案する。 この結果は,GUIエージェントにとって重要なボトルネックとして,プライバシ認識に注目した。
論文 参考訳(メタデータ) (Mon, 26 Jan 2026 11:33:40 GMT) - 可能性があるものリスクも大きいGUIエージェントに対するプライバシー保護のためのフレームワークおよびベンチマークの提案。「these results underscore privacy recognition as a critical and unresolved bottleneck in GUI privacy protection pipelines, limiting the reliability of subsequent protection mechanisms.」これはそうだろうと思うし、今後解決していく必要がある。
- プロジェクトサイトはGUIGuard: Toward a General Framework for Privacy-Preserving GUI Agents
FRoM-W1: Towards General Humanoid Whole-Body Control with Language Instructions
- FRoM-W1: Towards General Humanoid Whole-Body Control with Language Instructions [147.0]
FRoM-W1は、自然言語を用いた一般的なヒューマノイド全体の動作制御を実現するために設計されたオープンソースのフレームワークである。 我々はUnitree H1とG1ロボット上でFRoM-W1を広範囲に評価した。 その結果,HumanML3D-Xベンチマークにおいて,人体全体の動作生成に優れた性能を示した。
論文 参考訳(メタデータ) (Mon, 19 Jan 2026 07:59:32 GMT) - 「We introduce H-GPT, a 9B model that generates high quality whole-body human motions from natural language instructions. Enhanced with CoT technology, it achieves versatile instruction understanding.」と自然言語で指示可能な人間型ロボットのためのモデルの提案。ベースはllama3.1 8Bとのこと。
- プロジェクトサイトはFRoM-W1: Towards General Humanoid Whole-Body Control with Language Instructions
Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning
- Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning [105.4]
VIGA(Vision-as-Inverse-Graphic Agent)は、クローズドループの書き込み-ラン-レンダー-補完-修正手順によってシーンを再構築または編集する。 長距離推論をサポートするために、VIGAは(i)ジェネレータと検証ロールを交換するスキルライブラリと(ii)進化するコンテキストメモリを組み合わせた。
論文 参考訳(メタデータ) (Fri, 16 Jan 2026 09:11:55 GMT) - 反復的に改善(we present VIGA (Vision-as Inverse-Graphic Agent) that starts from an empty world and reconstructs or edits scenes through a closed-loop write→run→render→compare→revise procedure.)していくタイプの3D再構成手法。
- リポジトリはVIGA: Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning
Toward Efficient Agents: Memory, Tool learning, and Planning
- Toward Efficient Agents: Memory, Tool learning, and Planning [96.9]
本稿では,レイテンシ,トークン,ステップなどのコストを考慮したメモリ,ツール学習,計画という,エージェントの3つのコアコンポーネントの効率性について検討する。
論文 参考訳(メタデータ) (Tue, 20 Jan 2026 17:51:56 GMT) - memory, tool learning, planningの観点から整理されたLLM based Agentのサーベイ
- 論文リストなどがGitHub – yxf203/Awesome-Efficient-Agents: Survey and paper list on efficiency-guided LLM agents (memory, tool learning, planning).にある。
Large-Scale Multidimensional Knowledge Profiling of Scientific Literature
- Large-Scale Multidimensional Knowledge Profiling of Scientific Literature [46.2]
2020年から2025年の間に、22の主要なカンファレンスから10万以上の論文をまとめてまとめました。 分析では,安全性の向上,マルチモーダル推論,エージェント指向研究など,いくつかの顕著な変化に注目した。 これらの発見は、AI研究の進化に関するエビデンスベースの見解を提供し、より広範なトレンドを理解し、新たな方向性を特定するためのリソースを提供する。
論文 参考訳(メタデータ) (Wed, 21 Jan 2026 16:47:05 GMT) - 論文の大規模分析、基本的にはスタンダードなプロセスのように見えるがLLMを効果的に使っている点に注目。「Tsinghua University emphasizes directions such as knowledge distillation, graph neural networks, adversarial training, domain adaptation, and model generalization, while Carnegie Mellon University demonstrates strong performance in areas like robotic grasping and manipulation strategies and causal discovery.」といったfindingsは面白い。
- リポジトリはGitHub – xzc-zju/Profiling_Scientific_Literature
Towards Execution-Grounded Automated AI Research
- Towards Execution-Grounded Automated AI Research [106.9]
現在のLLMはしばしばもっともらしく見えるが効果のないアイデアを生成します。実行基盤化は役に立つかもしれないが、自動実行が実現可能かどうか、LLMが実行フィードバックから学べるかどうかは不明だ。 我々は、アイデアを実装する自動化エグゼキュータを構築し、その有効性を検証するために大規模な並列GPU実験をローンチする。 本研究では,進化的探索と強化学習という,実行フィードバックから学習する2つの方法を分析する。
論文 参考訳(メタデータ) (Tue, 20 Jan 2026 22:35:44 GMT) - 「we develop a large-scale automated idea executor system that can implement research ideas for open-ended and realistic research problems. Using this automated executor, we conduct an in-depth analysis of how well LLM ideators can learn from execution feedback to improve effectiveness through evolutionary search and RL. Execution- guided evolutionary search is sample-efficient and effective, but shows limited scaling. RL from execution reward suffers from diversity collapse and does not improve the upperbound.」とのことで可能性とともに限界を感じる結果
- リポジトリはGitHub – NoviScl/Automated-AI-Researcher
ViDoRe V3: A Comprehensive Evaluation of Retrieval Augmented Generation in Complex Real-World Scenarios
- ViDoRe V3: A Comprehensive Evaluation of Retrieval Augmented Generation in Complex Real-World Scenarios [8.3]
ViDoRe v3は、視覚的にリッチなドキュメントコーパス上のマルチタイプクエリを特徴とする総合マルチモーダルRAGベンチマークである。 さまざまな専門家ドメインにまたがる10のデータセットをカバーしており、26,000のドキュメントページと3,099の人間認証クエリをペアにしている。
論文 参考訳(メタデータ) (Tue, 13 Jan 2026 15:00:33 GMT) - 「We introduce ViDoRe V3, a comprehensive multi- modal RAG benchmark featuring multi-type queries over visually rich document corpora. It covers 10 datasets across diverse professional domains, comprising 26,000 document pages paired with 3,099 human-verified queries, each available in 6 languages.」というベンチマーク。「Evaluating state-of-the-art RAG pipelines, we find that visual retrievers outperform textual ones, late interaction and textual reranking yield substantial gains, and visual context improves answer generation quality.」が意外。
- リポジトリはvidore (Vidore)
YuFeng-XGuard: A Reasoning-Centric, Interpretable, and Flexible Guardrail Model for Large Language Models
- YuFeng-XGuard: A Reasoning-Centric, Interpretable, and Flexible Guardrail Model for Large Language Models [36.1]
我々はYuFeng-XGuardについて紹介する。YuFeng-XGuardは大規模言語モデル(LLM)のための論理中心ガードレールモデルである。 YuFeng-XGuardは不透明な二項判定を生成する代わりに、明確なリスクカテゴリや信頼性スコアを含む構造化されたリスク予測を生成する。 リスク認識を政策執行から切り離す動的政策機構を導入し、モデルの再訓練なしに安全政策を調整できるようにした。
論文 参考訳(メタデータ) (Thu, 22 Jan 2026 02:23:18 GMT) - 「Instead of producing opaque binary judgments, YuFeng-XGuard generates structured risk predictions, including explicit risk categories and configurable confidence scores, accompanied by natural language explanations that expose the underlying reasoning process.」と詳細を出してくれるガードレール。
- モデルはAlibaba-AAIG/YuFeng-XGuard-Reason-8B · Hugging Face