AgentGymとAGENTEVOL

An Introduction to Vision-Language Modeling

  • An Introduction to Vision-Language Modeling [128.6]
    視覚言語モデル(VLM)の応用は、我々の技術との関係に大きな影響を与えるだろう。 VLMとは何か、どのように動作するのか、どのようにトレーニングするかを紹介します。 本研究は,主に画像から言語へのマッピングに焦点を当てるが,ビデオへのVLMの拡張についても論じる。
    論文  参考訳(メタデータ)   (Mon, 27 May 2024 15:01:23 GMT)
  • VLMのサーベイ、であり、教科書的な内容

Mamba-2、様々なMambaの応用先

次世代Transformerとして期待されるSSMについて複数の論文が出ていた。最初の論文はMamba-2として、Mamba以上の構造を提案している。その他、様々なドメインで有効性が検証されている。Transformerは重い構造なのでこの手の改善への期待は大きい。

  • Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality [32.0]
    Mamba のような状態空間モデル (SSM) は,小型・中規模での変換器の整合性や性能向上が示されている。 我々の状態空間双対性(SSD)フレームワークは、コア層が2~8倍高速なMambaの選択SSMの精細化である新しいアーキテクチャ(Mamba-2)を設計することができる。
    論文  参考訳(メタデータ)   (Fri, 31 May 2024 17:50:01 GMT)
  • Mamba-2の提案、小規模(といっても2.7B)の検証で効果を確認している。
  • リポジトリはGitHub – state-spaces/mamba: Mamba SSM architecture
  • Audio Mamba: Bidirectional State Space Model for Audio Representation Learning [15.5]
    本稿では,音声分類のためのSSMベースモデルとして,自己注意のない初のAudio Mambaを紹介する。 我々は、AuMを6つの異なるベンチマークを含む様々なオーディオデータセットで評価し、同等またはより良いパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Wed, 05 Jun 2024 15:00:59 GMT)
  • 音声を扱うMamba
  • リポジトリはGitHub – mhamzaerol/Audio-Mamba-AuM
  • RoboMamba: Multimodal State Space Model for Efficient Robot Reasoning and Manipulation [38.9]
    我々は、ロボット推論とアクション機能の両方を提供するエンドツーエンドのロボットMLLMであるRoboMambaを紹介する。 具体的には、視覚エンコーダをMambaと統合し、協調学習による言語埋め込みと視覚データを整列する。 一度RoboMambaが十分な推論能力を持つと、最小限の微調整パラメータで操作スキルを得ることができる。
    論文  参考訳(メタデータ)   (Thu, 6 Jun 2024 17:59:47 GMT)
  • ロボットのためのMamba、ReasoningだけでなくManipurationを対象にしているのがすごい
  • リポジトリはRoboMamba (google.com)
  • CDMamba: Remote Sensing Image Change Detection with Mamba [30.4]
    我々はCDMambaと呼ばれるモデルを提案し、CDタスクを扱うためのグローバル機能とローカル機能とを効果的に組み合わせている。 具体的には,Mambaのグローバルな特徴抽出と畳み込みによる局所的詳細化を実現するために,Scaled Residual ConvMambaブロックを提案する。
    論文  参考訳(メタデータ)   (Thu, 06 Jun 2024 16:04:30 GMT)
  • Change DetectionのためのMamba
  • リポジトリはGitHub – zmoka-zht/CDMamba