2024年6月 – ページ 4 – arXiv最新論文の紹介

LLMs Meet Multimodal Generation and Editing: A Survey

LLMs Meet Multimodal Generation and Editing: A Survey [89.8]
本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成について詳しく検討する。具体的には,本研究で活用されている手法とマルチモーダルデータセットの背景にある重要な技術要素を網羅的に検討する。最後に、AIの安全性の進歩について包括的に議論し、新興のアプリケーションと今後の展望について調査する。
論文参考訳（メタデータ） (Wed, 29 May 2024 17:59:20 GMT)
実用レベルのものが出ているマルチモーダルな生成に関するサーベイ。マルチモーダルエージェントまで含む広範な内容になっている。
論文リストはリポジトリになっている　GitHub – YingqingHe/Awesome-LLMs-meet-Multimodal-Generation: 🔥🔥🔥 A curated list of papers on LLMs-based multimodal generation (image, video, 3D and audio).

Tool-Planner

Tool-Planner: Dynamic Solution Tree Planning for Large Language Model with Tool Clustering [30.3]
ツールキットに基づくタスク処理フレームワークであるTool-Plannerを提案する。 Tool-Plannerは同じ関数を持つAPI関数をツールキットにグループ化する。ツールエラーが発生した場合、言語モデルはツールキットに基づいてツールを再選択し、調整することができる。
論文参考訳（メタデータ） (Thu, 06 Jun 2024 07:30:14 GMT)
Agenticな動作で重要なツール選定を行わせるためのフレームワークの提案。ツールをクラスタリングして扱うことが有効というのは本当かと思いつつ、似たようなAPIが乱立している状況だとそうなるのかなと思わなくはない。
リポジトリはhttps://github.com/OceannTwT/Tool-Plannerとのことだが現時点では４０４

AgentGymとAGENTEVOL

AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [117.0]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文参考訳（メタデータ） (Thu, 06 Jun 2024 15:15:41 GMT)
複数のエージェントが動作しベンチマーク可能なフレームワークと自己進化のためのアルゴリズムの提案。
リポジトリはGitHub – WooooDyy/AgentGym: Code and implementations for the paper “AgentGym: Evolving Large Language Model-based Agents across Diverse Environments” by Zhiheng Xi et al.

An Introduction to Vision-Language Modeling

An Introduction to Vision-Language Modeling [128.6]
視覚言語モデル(VLM)の応用は、我々の技術との関係に大きな影響を与えるだろう。 VLMとは何か、どのように動作するのか、どのようにトレーニングするかを紹介します。本研究は,主に画像から言語へのマッピングに焦点を当てるが,ビデオへのVLMの拡張についても論じる。
論文参考訳（メタデータ） (Mon, 27 May 2024 15:01:23 GMT)
VLMのサーベイ、であり、教科書的な内容

Mamba-2、様々なMambaの応用先

次世代Transformerとして期待されるSSMについて複数の論文が出ていた。最初の論文はMamba-2として、Mamba以上の構造を提案している。その他、様々なドメインで有効性が検証されている。Transformerは重い構造なのでこの手の改善への期待は大きい。

Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality [32.0]
Mamba のような状態空間モデル (SSM) は,小型・中規模での変換器の整合性や性能向上が示されている。我々の状態空間双対性(SSD)フレームワークは、コア層が2～8倍高速なMambaの選択SSMの精細化である新しいアーキテクチャ(Mamba-2)を設計することができる。
論文参考訳（メタデータ） (Fri, 31 May 2024 17:50:01 GMT)
Mamba-2の提案、小規模（といっても2.7B）の検証で効果を確認している。
リポジトリはGitHub – state-spaces/mamba: Mamba SSM architecture

Audio Mamba: Bidirectional State Space Model for Audio Representation Learning [15.5]
本稿では,音声分類のためのSSMベースモデルとして,自己注意のない初のAudio Mambaを紹介する。我々は、AuMを6つの異なるベンチマークを含む様々なオーディオデータセットで評価し、同等またはより良いパフォーマンスを達成する。
論文参考訳（メタデータ） (Wed, 05 Jun 2024 15:00:59 GMT)
音声を扱うMamba
リポジトリはGitHub – mhamzaerol/Audio-Mamba-AuM

RoboMamba: Multimodal State Space Model for Efficient Robot Reasoning and Manipulation [38.9]
我々は、ロボット推論とアクション機能の両方を提供するエンドツーエンドのロボットMLLMであるRoboMambaを紹介する。具体的には、視覚エンコーダをMambaと統合し、協調学習による言語埋め込みと視覚データを整列する。一度RoboMambaが十分な推論能力を持つと、最小限の微調整パラメータで操作スキルを得ることができる。
論文参考訳（メタデータ） (Thu, 6 Jun 2024 17:59:47 GMT)
ロボットのためのMamba、ReasoningだけでなくManipurationを対象にしているのがすごい
リポジトリはRoboMamba (google.com)

CDMamba: Remote Sensing Image Change Detection with Mamba [30.4]
我々はCDMambaと呼ばれるモデルを提案し、CDタスクを扱うためのグローバル機能とローカル機能とを効果的に組み合わせている。具体的には,Mambaのグローバルな特徴抽出と畳み込みによる局所的詳細化を実現するために,Scaled Residual ConvMambaブロックを提案する。
論文参考訳（メタデータ） (Thu, 06 Jun 2024 16:04:30 GMT)
Change DetectionのためのMamba
リポジトリはGitHub – zmoka-zht/CDMamba

Tool Learning with Large Language Models: A Survey

Tool Learning with Large Language Models: A Survey [60.7]
大規模言語モデル(LLM)を用いたツール学習は,高度に複雑な問題に対処するLLMの能力を強化するための,有望なパラダイムとして登場した。この分野での注目と急速な進歩にもかかわらず、現存する文献は断片化され、体系的な組織が欠如している。
論文参考訳（メタデータ） (Tue, 28 May 2024 08:01:26 GMT)
複雑な問題を解くためにToolを扱うアプローチに関するサーベイ。流行っている分野であり整理された情報はとても参考になる。リポジトリがあるのもありがたい。
リポジトリはGitHub – quchangle1/LLM-Tool-Survey: This is the repository for the Tool Learning survey.

Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models

Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models [13.5]
利用可能な最大規模でトレーニングされた最先端モデルの機能と推論能力の劇的な破壊を実演する。モデルは間違った解に強い自信を表現し、しばしば非感覚的な「推論」のような説明を提供する。
論文参考訳（メタデータ） (Wed, 05 Jun 2024 23:23:54 GMT)
強力なはずのLLMが単純な問題「Alice has N brothers and she also has M sisters. How many sisters does Alice’s brother have?」に回答できないという指摘。MMLUの結果との乖離が大きい。
- Leakを含め色々な問題があるんだろうと思うけど、「We also noticed during early experimentation that depending on choice of N and M and also the ordering of brothers and sisters in the sentence, the rate of correct responses may vary substantially.」は面白い。
リポジトリはGitHub – LAION-AI/AIW: Alice in Wonderland code base for experiments and raw experiments data

Buffer of Thoughts, Chain of Agents

なんとか of Thoughts、Chain of なんとかというタイプの改善手法提案は多い。

Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models [65.5]
Buffer of Thoughts (BoT) は、斬新で多目的な思考補足的推論手法である。そこで我々はメタバッファーを提案し,一連の情報的高レベルの思考を記憶する。各問題に対して、関連する思考タイミングを検索し、特定の推論構造で適応的にインスタンス化する。
論文参考訳（メタデータ） (Thu, 06 Jun 2024 17:22:08 GMT)
メタバッファにあるThought template を使用しながら深く試行していく手法の提案。ToTなどを上回る性能を主張。メタバッファ自体を更新していくアーキテクチャで評価が難しそうな気がする。
リポジトリはGitHub – YangLing0818/buffer-of-thought-llm: Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models

Chain of Agents: Large Language Models Collaborating on Long-Context Tasks [39.3]
CoA(Chain-of-Agents)は、自然言語によるマルチエージェントコラボレーションを利用して、情報集約とコンテキスト推論を可能にする新しいフレームワークである。 CoAは読み出しと推論をインターリーブすることで入力全体を処理し、各エージェントに短いコンテキストを割り当てることで、長いコンテキストのフォーカス問題を軽減します。
論文参考訳（メタデータ） (Tue, 04 Jun 2024 23:36:08 GMT)
主に長いコンテキストの問題に対応するためのマルチエージェントなフレームワークの提案。長いデータをチャンクに分けワーカエージェントに処理させ（シーケンシャルな通信を含む）、マネージャーエージェントが取りまとめるような動作。よく使われるRAGより高性能であるとのこと。

ZHIPU AI OPEN PLATFORM (bigmodel.cn)より、GLM4 9Bが、About Us | Qwen (qwenlm.github.io)よりQwen2が発表された。いずれもWeightが公開されている。「While Qwen2-72B as well as its instruction-tuned models still uses the original Qianwen License, all other models, including Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, and Qwen2-57B-A14B, turn to adopt Apache 2.0!」（Hello Qwen2 | Qwen (qwenlm.github.io)）と、Qwen2の小型モデルはOSSである。

いつもの英語→日本語の機械翻訳性能で検証しているが、両モデルともに1 shotでBELUが30前後とかなり優秀である。中国の研究機関によるモデルは日本語性能が高いことが多く期待大。

Culturally Aware and Adapted NLP: A Taxonomy and a Survey of the State of the Art

Culturally Aware and Adapted NLP: A Taxonomy and a Survey of the State of the Art [70.1]
文化的に認識され、適応された自然言語処理への関心の高まりは、近年の研究にインスピレーションを与えている。文化」概念の共通理解の欠如は、この新興地域の進歩を評価するのを困難にしている。本稿では,研究の進展を分析し,理解するための体系的な枠組みを提供する,文化の要素の広範な分類法を提案する。
論文参考訳（メタデータ） (Thu, 06 Jun 2024 10:16:43 GMT)
NLP、特にLLMが知識と処理の両方を兼ねている現状において重要と思われる文化に関する分類、サーベイ。
（長く研究されてきた分野ではあるが）最近特に注目が集まっている分野だと思う。

月: 2024年6月