コンテンツへスキップ
- Yume: An Interactive World Generation Model [38.8]
Yumeは、画像やテキスト、ビデオを使って対話的でリアルでダイナミックな世界を作る。 入力画像から動的世界を生成し、キーボードアクションを使って世界を探索することができる。
論文 参考訳(メタデータ) (Wed, 23 Jul 2025 17:57:09 GMT)
- 「In this paper, we introduce a preview version of Yume, which is an interactive world generation model that allows the use of keyboard inputs to explore a dynamic world created by an input image. Moreover, it can do infinite video generation in an autoregressive manner.」と、いわゆる内心的なworld modelではなく、対話的に動画像を作っていくWorld generation modelの提案。
- リポジトリはstdstu12/YUME
- Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos [66.6]
本稿では,大規模な人体ビデオで訓練された視覚・言語・行動モデルであるBeing-H0を紹介する。 提案手法は,人間のビデオからの大規模VLA事前学習,3次元推論のための物理空間アライメント,ロボット作業のためのポストトレーニング適応を組み合わせた,新しいトレーニングパラダイムである物理インストラクションチューニングに重点を置いている。 本研究では,手の動き生成と指示の結果としてのBeat-H0の卓越性を実証的に示すとともに,モデルやデータサイズにもよく対応している。
論文 参考訳(メタデータ) (Mon, 21 Jul 2025 13:19:09 GMT)
- 動画データからのVLAモデル構築、手の動作を離散的なトークンに変換して扱うなどパイプラインも興味深い。
- リポジトリはBeing-H0
- A Survey of Large Language Models in Discipline-specific Research: Challenges, Methods and Opportunities [33.7]
大規模言語モデル (LLM) は、多くの学際的な研究でその変容の可能性を示している。 本稿では,学際研究におけるLSMの適用について概観する。
論文 参考訳(メタデータ) (Fri, 11 Jul 2025 09:11:18 GMT)
- 「From the perspective of their applicability, this paper explores how LLMs are contributing to various disciplines including mathematics, physics, chemistry, biology, and the humanities and social sciences, demonstrating their role in discipline-specific tasks. The prevailing challenges are critically examined and the promising research directions are highlighted alongside the recent advances in LLMs.」というサーベイ。