Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos 

  • Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos [66.6]
    本稿では,大規模な人体ビデオで訓練された視覚・言語・行動モデルであるBeing-H0を紹介する。 提案手法は,人間のビデオからの大規模VLA事前学習,3次元推論のための物理空間アライメント,ロボット作業のためのポストトレーニング適応を組み合わせた,新しいトレーニングパラダイムである物理インストラクションチューニングに重点を置いている。 本研究では,手の動き生成と指示の結果としてのBeat-H0の卓越性を実証的に示すとともに,モデルやデータサイズにもよく対応している。
    論文  参考訳(メタデータ)   (Mon, 21 Jul 2025 13:19:09 GMT)
  • 動画データからのVLAモデル構築、手の動作を離散的なトークンに変換して扱うなどパイプラインも興味深い。
  • リポジトリはBeing-H0

A Survey of Large Language Models in Discipline-specific Research: Challenges, Methods and Opportunities

  • A Survey of Large Language Models in Discipline-specific Research: Challenges, Methods and Opportunities [33.7]
    大規模言語モデル (LLM) は、多くの学際的な研究でその変容の可能性を示している。 本稿では,学際研究におけるLSMの適用について概観する。
    論文  参考訳(メタデータ)   (Fri, 11 Jul 2025 09:11:18 GMT)
  • 「From the perspective of their applicability, this paper explores how LLMs are contributing to various disciplines including mathematics, physics, chemistry, biology, and the humanities and social sciences, demonstrating their role in discipline-specific tasks. The prevailing challenges are critically examined and the promising research directions are highlighted alongside the recent advances in LLMs.」というサーベイ。