- LongCat-Flash-Thinking-2601 Technical Report [134.9]
LongCat-Flash-Thinking-2601はオープンソースのMixture-of-Experts (MoE)推論モデルである。 LongCat-Flash-Thinking-2601は、幅広いエージェントベンチマーク上で、オープンソースモデル間の最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (Fri, 23 Jan 2026 13:20:09 GMT) - 非常に高性能なKIMI K 2.5(Kimi K2.5: Visual Agentic Intelligence | Technical Report、GitHub – meituan-longcat/LongCat-Flash-Thinking-2601)の発表もあったがLongCatからも最新モデルのテクニカレポートが公表されている。
- モデルはmeituan-longcat/LongCat-Flash-Thinking-2601 · Hugging Face
日: 2026年2月2日
Genie 3, Advancing Open-source World Models, WorldBench
動画生成モデル → world modelへの進化は技術的に可能かどうかなど様々な論点があるが先週のGenie 3 — Google DeepMindは大きなニュースだったと思う。同時期のLingBot-Worldなどを含め検証が待たれる。ベンチマークも様々出ているが先週も物理的特性(定数や摩擦などパラメータ)を含めて評価可能なWorldBenhが出ていた。
- Advancing Open-source World Models [92.2]
LingBot-World(リンク)は、ビデオ生成から派生したオープンソースのワールドシミュレータである。 広い範囲の環境において、高い忠実度と堅牢なダイナミクスを維持している。 リアルタイムの対話性をサポートし、毎秒16フレームを生成すると1秒未満のレイテンシを実現する。
論文 参考訳(メタデータ) (Wed, 28 Jan 2026 12:37:01 GMT) - Ant groupによるビデオ生成系world model。「Beyond visual synthesis, LingBot-World serves as a practical testbed for downstreams [1, 6, 20, 26, 29, 57, 58, 78, 92]. It supports promptable world events, allowing users to semantically steer global conditions and local dynamics via textual prompts. Furthermore, it facilitates the training of action agents and enables consistent 3D reconstruction from generated videos [34, 50, 83], validating its geometric integrity.」と言っているのがすごい。公開モデルであるのも特徴的。
- リポジトリはGitHub – Robbyant/lingbot-world: Advancing Open-source World Models、プロジェクトサイトはGitHub – Robbyant/lingbot-world: Advancing Open-source World Models
- WorldBench: Disambiguating Physics for Diagnostic Evaluation of World Models [17.8]
We introduced WorldBench, a video-based benchmark designed for concept-specific, disentangled evaluation。 WorldBenchは、ビデオ生成と世界モデルの物理的推論能力を厳格に評価するための、より微妙でスケーラブルなフレームワークを提供する。
論文 参考訳(メタデータ) (Thu, 29 Jan 2026 05:31:02 GMT) - 「Our benchmark leverages both an intuitive physics and physical parameter estimation subset to provide greater insight into world model performance.」と物理特性(法則や定数等)を含めたベンチマーク。
- プロジェクトサイトはWorldBench: How Close are World Models to the Physical World?
GUIGuard: Toward a General Framework for Privacy-Preserving GUI Agents
- GUIGuard: Toward a General Framework for Privacy-Preserving GUI Agents [38.4]
GUIはよりリッチでアクセスしやすいプライベート情報を公開し、プライバシーリスクはシーケンシャルなシーンにわたるインタラクションの軌跡に依存する。 本稿では,プライバシ認識,プライバシ保護,保護下のタスク実行という,プライバシ保護GUIエージェントのための3段階フレームワークを提案する。 この結果は,GUIエージェントにとって重要なボトルネックとして,プライバシ認識に注目した。
論文 参考訳(メタデータ) (Mon, 26 Jan 2026 11:33:40 GMT) - 可能性があるものリスクも大きいGUIエージェントに対するプライバシー保護のためのフレームワークおよびベンチマークの提案。「these results underscore privacy recognition as a critical and unresolved bottleneck in GUI privacy protection pipelines, limiting the reliability of subsequent protection mechanisms.」これはそうだろうと思うし、今後解決していく必要がある。
- プロジェクトサイトはGUIGuard: Toward a General Framework for Privacy-Preserving GUI Agents