2024年6月12日 – arXiv最新論文の紹介

AgentGymとAGENTEVOL

AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [117.0]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文参考訳（メタデータ） (Thu, 06 Jun 2024 15:15:41 GMT)
複数のエージェントが動作しベンチマーク可能なフレームワークと自己進化のためのアルゴリズムの提案。
リポジトリはGitHub – WooooDyy/AgentGym: Code and implementations for the paper “AgentGym: Evolving Large Language Model-based Agents across Diverse Environments” by Zhiheng Xi et al.

An Introduction to Vision-Language Modeling [128.6]
視覚言語モデル(VLM)の応用は、我々の技術との関係に大きな影響を与えるだろう。 VLMとは何か、どのように動作するのか、どのようにトレーニングするかを紹介します。本研究は,主に画像から言語へのマッピングに焦点を当てるが,ビデオへのVLMの拡張についても論じる。
論文参考訳（メタデータ） (Mon, 27 May 2024 15:01:23 GMT)
VLMのサーベイ、であり、教科書的な内容

次世代Transformerとして期待されるSSMについて複数の論文が出ていた。最初の論文はMamba-2として、Mamba以上の構造を提案している。その他、様々なドメインで有効性が検証されている。Transformerは重い構造なのでこの手の改善への期待は大きい。

Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality [32.0]
Mamba のような状態空間モデル (SSM) は,小型・中規模での変換器の整合性や性能向上が示されている。我々の状態空間双対性(SSD)フレームワークは、コア層が2～8倍高速なMambaの選択SSMの精細化である新しいアーキテクチャ(Mamba-2)を設計することができる。
論文参考訳（メタデータ） (Fri, 31 May 2024 17:50:01 GMT)
Mamba-2の提案、小規模（といっても2.7B）の検証で効果を確認している。
リポジトリはGitHub – state-spaces/mamba: Mamba SSM architecture

Audio Mamba: Bidirectional State Space Model for Audio Representation Learning [15.5]
本稿では,音声分類のためのSSMベースモデルとして,自己注意のない初のAudio Mambaを紹介する。我々は、AuMを6つの異なるベンチマークを含む様々なオーディオデータセットで評価し、同等またはより良いパフォーマンスを達成する。
論文参考訳（メタデータ） (Wed, 05 Jun 2024 15:00:59 GMT)
音声を扱うMamba
リポジトリはGitHub – mhamzaerol/Audio-Mamba-AuM

RoboMamba: Multimodal State Space Model for Efficient Robot Reasoning and Manipulation [38.9]
我々は、ロボット推論とアクション機能の両方を提供するエンドツーエンドのロボットMLLMであるRoboMambaを紹介する。具体的には、視覚エンコーダをMambaと統合し、協調学習による言語埋め込みと視覚データを整列する。一度RoboMambaが十分な推論能力を持つと、最小限の微調整パラメータで操作スキルを得ることができる。
論文参考訳（メタデータ） (Thu, 6 Jun 2024 17:59:47 GMT)
ロボットのためのMamba、ReasoningだけでなくManipurationを対象にしているのがすごい
リポジトリはRoboMamba (google.com)

CDMamba: Remote Sensing Image Change Detection with Mamba [30.4]
我々はCDMambaと呼ばれるモデルを提案し、CDタスクを扱うためのグローバル機能とローカル機能とを効果的に組み合わせている。具体的には,Mambaのグローバルな特徴抽出と畳み込みによる局所的詳細化を実現するために,Scaled Residual ConvMambaブロックを提案する。
論文参考訳（メタデータ） (Thu, 06 Jun 2024 16:04:30 GMT)
Change DetectionのためのMamba
リポジトリはGitHub – zmoka-zht/CDMamba