The Prompt Report: A Systematic Survey of Prompting Techniques 

  • The Prompt Report: A Systematic Survey of Prompting Techniques [42.6]
    本稿では, プロンプトの分類を組立て, 利用分析を行うことにより, プロンプトの構造的理解を確立した。 本稿では,33の語彙の包括的語彙,58のテキストのみのプロンプト技術,40のモダリティのテクニックを提示する。
    論文  参考訳(メタデータ)   (Thu, 06 Jun 2024 18:10:11 GMT)
  • プロンプトテクニックのサーベイ
  • 本当に色々あるという感想。そして本サーベイに入っていないものもいっぱいある…。

Towards Vision-Language Geo-Foundation Model: A Survey

  • Towards Vision-Language Geo-Foundation Model: A Survey [65.7]
    Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。 本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
    論文  参考訳(メタデータ)   (Thu, 13 Jun 2024 17:57:30 GMT)
  • Vision-Language Geo-Foundation Model(VLGFM)に関するサーベイ。Vision & Languageな基盤モデルで地球観測(地理的なもの)を含むものをVLGFMとしている。数多く発表されているのに若干驚き。
  • リポジトリはGitHub – zytx121/Awesome-VLGFM: A Survey on Vision-Language Geo-Foundation Models (VLGFMs)

DeepStack

  • DeepStack: Deeply Stacking Visual Tokens is Surprisingly Simple and Effective for LMMs [137.9]
    ほとんどの大きなマルチモーダルモデル(LMM)は、大きな言語モデル(LLM)の第1層にシーケンスとして視覚トークンを供給することによって実装される。 本稿では,LMMのための新しいアーキテクチャであるDeepStackについて述べる。LMMの言語層とビジョントランスフォーマーの$N$レイヤを考慮すると,視覚トークンを$N$グループに積み上げ,各グループを下位から上位までの整列トランスフォーマー層に供給する。 驚くべきことに、この単純な手法は、レイヤ間の視覚トークン間の相互作用をモデル化するLMMのパワーを、最小限のコストで大幅に向上させる。
    論文  参考訳(メタデータ)   (Thu, 06 Jun 2024 17:59:34 GMT)
  •  Vision-Languageの構成で単純に第一層にVisionのデータを投入するのではなく、複数の層に情報を供給することで性能が高くなるとのこと。レイヤごとに解像度を変える戦略。TextVQA, DocVQA, InfoVQAでLLaVA 1.5を改善。 
  • リポジトリはDeepStack (deepstack-vl.github.io)

Improving In-Context Learning with Prediction Feedback for Sentiment Analysis

  • Improving In-Context Learning with Prediction Feedback for Sentiment Analysis [45.5]
    大規模言語モデル(LLM)は、文脈内学習(ICL)パラダイムを通じて感情分析において有望な結果を得た。 人間のフィードバックによる理解の調整能力にインスパイアされた本論文は,事前の予測とフィードバックを取り入れたICLを強化する。 9つの感情分析データセットによる実験結果から,従来のICL法よりもフレームワークが優れていることが示され,平均F1改善率は5.95%となった。
    論文  参考訳(メタデータ)   (Wed, 05 Jun 2024 04:04:08 GMT)
  • 「(1) acquiring prior predictions of LLMs, (2) devising predictive feedback based on correctness, and (3) leveraging a feedbackdriven prompt to refine sentiment understanding.」と、実利用時に「予測結果へのFeedback付きのデータ」を入れICLを行うことで性能を改善。
  • リポジトリはGitHub – HITSZ-HLT/Feedback-ICL

LLMs Meet Multimodal Generation and Editing: A Survey

  • LLMs Meet Multimodal Generation and Editing: A Survey [89.8]
    本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成について詳しく検討する。 具体的には,本研究で活用されている手法とマルチモーダルデータセットの背景にある重要な技術要素を網羅的に検討する。 最後に、AIの安全性の進歩について包括的に議論し、新興のアプリケーションと今後の展望について調査する。
    論文  参考訳(メタデータ)   (Wed, 29 May 2024 17:59:20 GMT)
  • 実用レベルのものが出ているマルチモーダルな生成に関するサーベイ。マルチモーダルエージェントまで含む広範な内容になっている。
  • 論文リストはリポジトリになっている GitHub – YingqingHe/Awesome-LLMs-meet-Multimodal-Generation: 🔥🔥🔥 A curated list of papers on LLMs-based multimodal generation (image, video, 3D and audio).

Tool-Planner

  • Tool-Planner: Dynamic Solution Tree Planning for Large Language Model with Tool Clustering [30.3]
    ツールキットに基づくタスク処理フレームワークであるTool-Plannerを提案する。 Tool-Plannerは同じ関数を持つAPI関数をツールキットにグループ化する。 ツールエラーが発生した場合、言語モデルはツールキットに基づいてツールを再選択し、調整することができる。
    論文  参考訳(メタデータ)   (Thu, 06 Jun 2024 07:30:14 GMT)
  • Agenticな動作で重要なツール選定を行わせるためのフレームワークの提案。ツールをクラスタリングして扱うことが有効というのは本当かと思いつつ、似たようなAPIが乱立している状況だとそうなるのかなと思わなくはない。
  • リポジトリはhttps://github.com/OceannTwT/Tool-Plannerとのことだが現時点では404

AgentGymとAGENTEVOL

An Introduction to Vision-Language Modeling

  • An Introduction to Vision-Language Modeling [128.6]
    視覚言語モデル(VLM)の応用は、我々の技術との関係に大きな影響を与えるだろう。 VLMとは何か、どのように動作するのか、どのようにトレーニングするかを紹介します。 本研究は,主に画像から言語へのマッピングに焦点を当てるが,ビデオへのVLMの拡張についても論じる。
    論文  参考訳(メタデータ)   (Mon, 27 May 2024 15:01:23 GMT)
  • VLMのサーベイ、であり、教科書的な内容

Mamba-2、様々なMambaの応用先

次世代Transformerとして期待されるSSMについて複数の論文が出ていた。最初の論文はMamba-2として、Mamba以上の構造を提案している。その他、様々なドメインで有効性が検証されている。Transformerは重い構造なのでこの手の改善への期待は大きい。

  • Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality [32.0]
    Mamba のような状態空間モデル (SSM) は,小型・中規模での変換器の整合性や性能向上が示されている。 我々の状態空間双対性(SSD)フレームワークは、コア層が2~8倍高速なMambaの選択SSMの精細化である新しいアーキテクチャ(Mamba-2)を設計することができる。
    論文  参考訳(メタデータ)   (Fri, 31 May 2024 17:50:01 GMT)
  • Mamba-2の提案、小規模(といっても2.7B)の検証で効果を確認している。
  • リポジトリはGitHub – state-spaces/mamba: Mamba SSM architecture
  • Audio Mamba: Bidirectional State Space Model for Audio Representation Learning [15.5]
    本稿では,音声分類のためのSSMベースモデルとして,自己注意のない初のAudio Mambaを紹介する。 我々は、AuMを6つの異なるベンチマークを含む様々なオーディオデータセットで評価し、同等またはより良いパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Wed, 05 Jun 2024 15:00:59 GMT)
  • 音声を扱うMamba
  • リポジトリはGitHub – mhamzaerol/Audio-Mamba-AuM
  • RoboMamba: Multimodal State Space Model for Efficient Robot Reasoning and Manipulation [38.9]
    我々は、ロボット推論とアクション機能の両方を提供するエンドツーエンドのロボットMLLMであるRoboMambaを紹介する。 具体的には、視覚エンコーダをMambaと統合し、協調学習による言語埋め込みと視覚データを整列する。 一度RoboMambaが十分な推論能力を持つと、最小限の微調整パラメータで操作スキルを得ることができる。
    論文  参考訳(メタデータ)   (Thu, 6 Jun 2024 17:59:47 GMT)
  • ロボットのためのMamba、ReasoningだけでなくManipurationを対象にしているのがすごい
  • リポジトリはRoboMamba (google.com)
  • CDMamba: Remote Sensing Image Change Detection with Mamba [30.4]
    我々はCDMambaと呼ばれるモデルを提案し、CDタスクを扱うためのグローバル機能とローカル機能とを効果的に組み合わせている。 具体的には,Mambaのグローバルな特徴抽出と畳み込みによる局所的詳細化を実現するために,Scaled Residual ConvMambaブロックを提案する。
    論文  参考訳(メタデータ)   (Thu, 06 Jun 2024 16:04:30 GMT)
  • Change DetectionのためのMamba
  • リポジトリはGitHub – zmoka-zht/CDMamba

Tool Learning with Large Language Models: A Survey 

  • Tool Learning with Large Language Models: A Survey [60.7]
    大規模言語モデル(LLM)を用いたツール学習は,高度に複雑な問題に対処するLLMの能力を強化するための,有望なパラダイムとして登場した。 この分野での注目と急速な進歩にもかかわらず、現存する文献は断片化され、体系的な組織が欠如している。
    論文  参考訳(メタデータ)   (Tue, 28 May 2024 08:01:26 GMT)
  • 複雑な問題を解くためにToolを扱うアプローチに関するサーベイ。流行っている分野であり整理された情報はとても参考になる。リポジトリがあるのもありがたい。
  • リポジトリはGitHub – quchangle1/LLM-Tool-Survey: This is the repository for the Tool Learning survey.