Deep Generative Models in Robotics / Deep Reinforcement Learning for Robotics

AIとロボティクスの融合は重要な研究分野。近年だと生成AIとの融合が話題だが、深層強化学習に関しても研究が多い。この分野のサーベイはとてもありがたい。

  • Deep Generative Models in Robotics: A Survey on Learning from Multimodal Demonstrations [52.1]
    近年、ロボット学習コミュニティは、大規模なデータセットの複雑さを捉えるために、深層生成モデルを使うことへの関心が高まっている。 本稿では,エネルギーベースモデル,拡散モデル,アクションバリューマップ,生成的敵ネットワークなど,コミュニティが探求してきたさまざまなモデルについて述べる。 また,情報生成から軌道生成,コスト学習に至るまで,深層生成モデルを用いた様々なアプリケーションについて述べる。
    論文  参考訳(メタデータ)   (Thu, 08 Aug 2024 11:34:31 GMT)
  • 生成モデルとロボティクスに関するサーベイ。
  • Deep Reinforcement Learning for Robotics: A Survey of Real-World Successes [44.6]
    強化学習(RL)は、広範囲のアプリケーションで非常に有望である。 ロボットの問題は、物理世界との相互作用の複雑さとコストから起因して、RLの応用に根本的な困難をもたらす。 この調査は、RLの能力を活用して一般的な実世界のロボットシステムを構築するための、RLの実践者とロボティクスの両方に洞察を提供するように設計されている。
    論文  参考訳(メタデータ)   (Wed, 7 Aug 2024 04:35:38 GMT)
  • 深層強化学習とロボティクスに関するサーベイ。

When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding 

  • When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.4]
    CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。 復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。 TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
    論文  参考訳(メタデータ)   (Thu, 15 Aug 2024 11:36:18 GMT)
  • ビデオ符号化に対するMLLMの適用、マルチモーダル性を活用した手法であり興味深い。実用化にはハードルがありそうだが、可能性を感じる結果。