OpenThoughts: Data Recipes for Reasoning Models

  • OpenThoughts: Data Recipes for Reasoning Models [215.2]
    OpenThoughtsプロジェクトは、推論モデルをトレーニングするためのオープンソースのデータセットを作成することだ。 OpenThoughts2-1Mデータセットは、公開推論データに基づいてトレーニングされた最初のモデルであるOpenThinker2-32Bに導かれた。 OpenThinker3-7Bモデル。
    論文  参考訳(メタデータ)   (Wed, 04 Jun 2025 17:25:39 GMT)
  • LRM構築のためのオープンデータセット。データ拡張の方向性としても参考になる。
  • プロジェクトサイトはOpen Thoughts

PARTONOMY: Large Multimodal Models with Part-Level Visual Understanding

  • PARTONOMY: Large Multimodal Models with Part-Level Visual Understanding [114.5]
    画素レベルの部分接地のために設計された LMM ベンチマークである PartONOMY を紹介する。 我々はいくつかの部分中心LMMをトレーニングし、セグメント化トークンの代わりにスパンタグを使用する新しいセグメント化LMMであるPLUMを提案する。 我々の研究は、LMMにおけるきめ細かい基礎的な視覚的理解を実現するための新たな道を開く。
    論文  参考訳(メタデータ)   (Tue, 27 May 2025 06:03:56 GMT)
  • 「Unfortunately, Large Multimodal Models (LMMs), the backbones of today’s multimodal systems, lack strong part recognition abilities 」とのことで、それを検証するベンチマークと改善モデルPLUM: Part-Level Understanding LMMを提案。
  • リポジトリはGitHub – AnselBlume/partonomy: Repository for “Partonomy: Large Multimodal Models with Part-Level Visual Understanding”

Ctrl-Crash: Controllable Diffusion for Realistic Car Crashes 

  • Ctrl-Crash: Controllable Diffusion for Realistic Car Crashes [26.7]
    Ctrl-Crashはコントロール可能なカークラッシュビデオ生成モデルで、バウンディングボックス、クラッシュタイプ、初期画像フレームなどの信号を条件付けする。 提案手法は,入力の微妙な変化がクラッシュ結果の劇的な変化を引き起こすような,現実的なシナリオ生成を可能にする。
    論文  参考訳(メタデータ)   (Fri, 30 May 2025 21:04:38 GMT)
  • 「we introduce Ctrl-Crash, a controllable video diffusion framework for generating realistic crash videos from a single initial frame. Our method operates with inputs and outputs in pixel space, as opposed to using computer graphics primitives and explicit models of physics.」
  • 様々なシチュエーションを考える上では有効そうには思う
  • リポジトリはCtrl-Crash: Controllable Diffusion for Realistic Car Crashes