- SAM 3D: 3Dfy Anything in Images [99.1]
画像から形状, テクスチャ, レイアウトを予測し, 視覚的な3Dオブジェクト再構成のための生成モデルSAM 3Dを提案する。 オブジェクトの形状、テクスチャ、ポーズをアノテートするための、人間用およびモデル・イン・ザ・ループパイプラインでこれを実現する。 コードとモデルの重み付け、オンラインデモ、そしてWild 3Dオブジェクト再構築のための新しい挑戦的なベンチマークをリリースします。
論文 参考訳(メタデータ) (Thu, 20 Nov 2025 18:31:46 GMT) - 「 SAM 3D, a generative model for visually grounded 3D object reconstruction, predicting geometry, texture, and layout from a single image」と3D reconstructionモデルであり、非常に高い品質に見える。LLMのようなアプローチで構築しているとのこと
- 「As in recent works, we first train on a large collection of rendered synthetic objects. This is supervised pretraining: our model learns a rich vocabulary for object shape and texture, preparing it for real-world reconstruction. Next is mid-training with semi-synthetic data produced by pasting rendered models into natural images. Finally, post-training adapts the model to real images, using both a novel model-in-the-loop (MITL) pipeline and human 3D artists, and aligns it to human preference. We find that synthetic pretraining generalizes, given adequate post-training on natural images.」
- リポジトリはGitHub – facebookresearch/sam-3d-objects: SAM 3D Objects、プロジェクトサイトはSAM 3D
タグ: 3D
Hunyuan3D-Omni, Qwen3-Omni, LongCat-Flash-Thinking, EmbeddingGemma, Logics-Parsing
公開モデルの開発はとても盛んで、先週はQwen3 Omniが話題になることが多かったように思う。arXivではQwen3 Omini以外にも有望なモデルの発表が相次いでいる。
- Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets [34.7]
Hunyuan3D-Omniは、Hunyuan3D 2.1上に構築されたきめ細かい制御可能な3Dアセット生成のための統一されたフレームワークである。 我々のモデルは単一のクロスモーダルアーキテクチャで全ての信号を統一する。 実験により、これらの追加制御により生成精度が向上し、幾何認識変換が可能となり、生産の堅牢性も向上することが示された。
論文 参考訳(メタデータ) (Thu, 25 Sep 2025 14:39:17 GMT) - 3Dにフォーカスした実装
- リポジトリはGitHub – Tencent-Hunyuan/Hunyuan3D-Omni: Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets
- Qwen3-Omni Technical Report [105.1]
Qwen3-Omniは、テキスト、画像、オーディオ、ビデオ間で最先端のパフォーマンスを維持する単一のマルチモーダルモデルである。 Qwen3-OmniはQwenシリーズ内の同一サイズのシングルモーダルモデルのパフォーマンスと一致し、特にオーディオタスクに優れる。 119言語でのテキストインタラクション、19言語での音声理解、および10言語での音声生成をサポートする。
論文 参考訳(メタデータ) (Mon, 22 Sep 2025 13:26:24 GMT) - Qwen系のマルチモーダルモデル
- リポジトリはGitHub – QwenLM/Qwen3-Omni: Qwen3-omni is a natively end-to-end, omni-modal LLM developed by the Qwen team at Alibaba Cloud, capable of understanding text, audio, images, and video, as well as generating speech in real time.
- LongCat-Flash-Thinking Technical Report [116.8]
LongCat-Flash-ThinkingはオープンソースのMixture-of-Experts (MoE)推論モデルである。 高度な能力は、巧妙に製作された訓練プロセスを通じて育成される。 LongCat-Flash-Thinkingは、複雑な推論タスクのスイート上で、オープンソースモデル間の最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (Tue, 23 Sep 2025 10:25:48 GMT) - MoEなLRM、OSSなモデルでのSoTAを主張
- リポジトリはmeituan-longcat/LongCat-Flash-Thinking · Hugging Face
- EmbeddingGemma: Powerful and Lightweight Text Representations [42.4]
EmbeddingGemmaはGemma 3言語ファミリに基づいた、新しい軽量でオープンなテキスト埋め込みモデルである。 スプレッドアウト正規化器を用いてモデル頑健性と表現性を向上する。 さらなる研究を促進するため、コミュニティに EmbeddingGemma をリリースします。
論文 参考訳(メタデータ) (Wed, 24 Sep 2025 17:56:51 GMT) - 小規模、強力なEmbeddingモデル
- リポジトリはEmbeddingGemma – a google Collection
- Logics-Parsing Technical Report [9.0]
我々は、強化学習を付加したエンドツーエンドのLVLMモデルであるLogics-Parsingを提案する。 本モデルでは、複雑なレイアウト解析と読み出し順序推定を最適化するために、厳密に設計された報酬機構を組み込んでいる。 LogicsParsingBenchは、9つの主要なカテゴリと20以上のサブカテゴリにまたがる1,078ページレベルのPDFイメージのキュレートされたセットである。
論文 参考訳(メタデータ) (Wed, 24 Sep 2025 04:54:37 GMT) - Document Understandingに有効なLVLM
- リポジトリはGitHub – alibaba/Logics-Parsing
GLM-4.5, Step-3, Falcon-H1, HunyuanWorld
先週は残念ながらGPT-5の発表はなかった。注目のモデルはMoE構成で商用モデルに匹敵するGLM-4.5(zai-org/GLM-4.5: GLM-4.5: An open-source large language model designed for intelligent agents by Z.ai)である。最大構成の355B-A32Bはo3やGrok4、Claude 4 Opusといったフロンティアなモデルと競合しているようにみえる。StepFunのStep-3はアクティブパラメータとデコードコストのトレードオフに注目したモデルで推論効率が高い。またVLMでありその点の性能も高い。Falcon-H1シリーズは様々な規模のモデルでtransformer, mambaハイブリッドとなっている。様々な企業・県有機関からこのような公開モデルが出ている現状はとても面白い。GPT-5がこれらを引き離せるか要注目。
別軸でTencent Hunyuanからは3D世界を作れるモデルHunyuanWorld-1.0が発表されている(腾讯混元3D)。こちらも公開モデルとなっている点がうれしい。
- Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding [144.7]
大規模言語モデル(LLM)はデコード時にハードウェア効率が低下する。 本稿では,デコードコストの最小化に最適化されたハードウェア対応モデルシステムであるStep-3を紹介する。 Step-3はDeepSeek-V3やQwen3 MoE 235Bのようなモデルと比較して、理論的デコードコストを大幅に削減する。
論文 参考訳(メタデータ) (Fri, 25 Jul 2025 16:53:13 GMT) - リポジトリはstepfun-ai/Step3、Step3 – a stepfun-ai Collection
- Falcon-H1: A Family of Hybrid-Head Language Models Redefining Efficiency and Performance [7.3]
Falcon-H1は、高性能と効率の両方に最適化されたハイブリッドアーキテクチャを備えた、新しい大規模言語モデル(LLM)である。 Falcon-H1は、0.5B, 1.5B, 1.5B-deep, 3B, 7B, 34Bパラメータのベースおよび命令調整型を含む複数の構成でリリースされている。 最大256Kコンテキストトークンと18言語のサポートにより、Falcon-H1は幅広いアプリケーションに適している。
論文 参考訳(メタデータ) (Wed, 30 Jul 2025 07:55:33 GMT) - 詳細なレポートともに公開されたモデル。
- リポジトリはtiiuae/Falcon-H1: All information and news with respect to Falcon-H1 series、モデルはtiiuae (Technology Innovation Institute)
- HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels [31.0]
HunyuanWorld 1.0は、テキストと画像の条件から没入的で探索可能なインタラクティブな3Dシーンを生成するための、両方の世界のベストを組み合わせた、新しいフレームワークである。 提案手法の主な利点は,1)パノラマ世界プロキシによる360度没入体験,2)既存のコンピュータグラフィックスパイプラインとのシームレスな互換性を実現するメッシュエクスポート機能,3)対話性向上のためのオブジェクト表現の非拘束化,の3つである。
論文 参考訳(メタデータ) (Tue, 29 Jul 2025 13:43:35 GMT) - リポジトリはTencent-Hunyuan/HunyuanWorld-1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels with Hunyuan3D World Model、モデルはtencent/HunyuanWorld-1 · Hugging Face
- Kimi K2: Open Agentic Intelligence [118.8]
Kimi K2は32億の活性化パラメータと1兆の総パラメータを持つ大きな言語モデルである。 MuonClipに基づいて、K2は15.5兆のトークンで事前訓練され、損失のスパイクはゼロだった。 Kimi K2は、オープンソース非思考モデルの間で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (Mon, 28 Jul 2025 05:35:43 GMT) - KIMI K2の論文が出ていた。LLMなのかLRMなのかは議論が分かれるように思わなくもない。MuonClip optimizer の使用や合成データの活用など面白い記載が多い。
- リポジトリはmoonshotai/Kimi-K2-Instruct · Hugging Face