Towards Unifying Understanding and Generation in the Era of Vision Foundation Models: A Survey from the Autoregression Perspective

  • Towards Unifying Understanding and Generation in the Era of Vision Foundation Models: A Survey from the Autoregression Perspective [31.5]
    本稿では、最近の進歩を概観し、自己回帰的視覚基盤モデルの将来的な方向性について論じる。 我々は,次世代の視覚基礎モデルのトレンドを提示し,視覚タスクの理解と生成を統一する。 我々は、自己回帰的視覚基盤モデルを、その視覚トークン化剤と自己回帰バックボーンから分類する。
    論文  参考訳(メタデータ)   (Tue, 29 Oct 2024 16:48:22 GMT)
  • テキスト分野だけではなく画像においてもさらには画像生成においても存在感を増すAutoregressionモデル、autoregressive vision foundation modelのサーベイ
  • リポジトリはGitHub – EmmaSRH/ARVFM: Awesome autoregressive vision foundation models

OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

  • OS-ATLAS: A Foundation Action Model for Generalist GUI Agents [55.4]
    OS-AtlasはGUIグラウンディングとOODエージェントタスクに優れた基礎的なGUIアクションモデルである。 現在までに1300万以上のGUI要素を含む、オープンソースのクロスプラットフォームGUI基盤コーパスをリリースしています。
    論文  参考訳(メタデータ)   (Wed, 30 Oct 2024 17:10:19 GMT)
  • GUIを対象としたFoundation Action Modelの提案、Anthropicの発表もあって盛り上がっている領域。性能は「although GPT-4o with OS-Atlas-Base as the grounding module still lags behind human performance, it significantly outperforms other grounding methods such as SeeClick and Set-of-Mark (SoM)」とのこと。
  • リポジトリはOS-Atlas Homepage

A Survey of Foundation Models for Music Understanding 

  • A Survey of Foundation Models for Music Understanding [60.8]
    この研究は、AI技術と音楽理解の交差に関する初期のレビューの1つである。 音楽理解能力に関して,近年の大規模音楽基盤モデルについて検討,分析,検証を行った。
    論文  参考訳(メタデータ)   (Sun, 15 Sep 2024 03:34:14 GMT)
  • 「This work, to our best knowledge, is one of the early reviews of the intersection of AI techniques and music understanding.」とのこと。非常に包括的なサーベイ。

Configurable Foundation Models: Building LLMs from a Modular Perspective 

  • Configurable Foundation Models: Building LLMs from a Modular Perspective [115.6]
    LLMを多数の機能モジュールに分解する傾向が高まり、複雑なタスクに取り組むためにモジュールの一部とモジュールの動的アセンブリを推論することができる。 各機能モジュールを表すブロックという用語を造語し、モジュール化された構造をカスタマイズ可能な基礎モデルとして定義する。 検索とルーティング,マージ,更新,成長という,レンガ指向の4つの操作を提示する。 FFN層はニューロンの機能的特殊化と機能的ニューロン分割を伴うモジュラーパターンに従うことが判明した。
    論文  参考訳(メタデータ)   (Wed, 4 Sep 2024 17:01:02 GMT)
  • Configurable Foundation Models、再構成可能なモジュール化された基盤モデルに関する研究、サーベイ
  • 有用性は分かるが難しい問題との認識。model mergeなどの成果を見ると可能性を感じるとともに現時点では機能別の領域同定も簡単ではなさそうという印象。

The Responsible Foundation Model Development Cheatsheet: A Review of Tools & Resources

  • The Responsible Foundation Model Development Cheatsheet: A Review of Tools & Resources [100.2]
    ファンデーションモデル開発は、急速に成長するコントリビュータ、科学者、アプリケーションを引き付けている。 責任ある開発プラクティスを形成するために、我々はFoundation Model Development Cheatsheetを紹介します。
    論文  参考訳(メタデータ)   (Wed, 26 Jun 2024 02:19:01 GMT)
  • 責任ある基盤モデル開発のためのチートシート。チートシートとあるが広範な内容となっている。
  • プロジェクトサイトはResources for Foundation Models – Foundation Model Development Cheatsheet (fmcheatsheet.org)

Sequential Modeling Enables Scalable Learning for Large Vision Models

  • Sequential Modeling Enables Scalable Learning for Large Vision Models [120.9]
    本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。 我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
    論文  参考訳(メタデータ)   (Fri, 1 Dec 2023 18:59:57 GMT)
  • ピクセル以外の情報を用いないモデルの提案、プロンプトもピクセル。「So, we graciously hand over to you, our gentle reader, the task of pondering whether our modest LVM also exhibits the much-vaunted ‘Sparks of AGI’.」というコメントが面白く、熱い。
  • プロジェクトサイトはLarge Vision Models (yutongbai.com)

Multimodal Foundation Models: From Specialists to General-Purpose Assistants

  • Multimodal Foundation Models: From Specialists to General-Purpose Assistants [187.7]
    専門モデルから汎用アシスタントへの移行に焦点をあて,視覚と視覚言語能力を示すマルチモーダル基礎モデルの分類と進化に関する包括的調査を行う。 対象読者は、コンピュータビジョンの研究者、大学院生、およびビジョン言語によるマルチモーダルコミュニティの専門家である。
    論文  参考訳(メタデータ)   (Mon, 18 Sep 2023 17:56:28 GMT)
  • 特化型モデル → 汎用アシスタントという最近の潮流に関するサーベイ。100ページ近くの分量であり教科書に近い
  • 研究の進展が非常に速い分野でもありとても重要な論文

Foundational Models Defining a New Era in Vision: A Survey and Outlook

  • Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.5]
    視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。 モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。 このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
    論文  参考訳(メタデータ)   (Tue, 25 Jul 2023 17:59:18 GMT)
  • コンピュータビジョン(+LLM)のfoundational modelsのサーベイ。プロンプトを使うスタイルのモデルが主。EMBODIED FOUNDATIONAL AGENTSも扱われており、とても参考になる。
  • リソースがGitHub – awaisrauf/Awesome-CV-Foundational-Modelsにある。とても有用。

Toolを使うFoundation Model、Tool-AugmentedなLLM

  • Tool Learning with Foundation Models [114.3]
    基礎モデルの出現により、AIシステムは、人間としてのツールの使用に等しく適応できる可能性がある。 その大きな可能性にもかかわらず、この分野における重要な課題、機会、そして将来の取り組みに関する包括的な理解はいまだに欠けている。
    論文  参考訳(メタデータ)   (Mon, 17 Apr 2023 15:16:10 GMT)
  • ツールを使用する基盤モデルに関するサーベイ
  • 外部知識活用からの自然な拡張な気はしつつ、すごく世界が広がる感覚がありとても興味深い
  • リポジトリはGitHub – OpenBMB/BMTools: Tool Learning for Big Models, Open-Source Solutions of ChatGPT-Plugins

  • API-Bank: A Benchmark for Tool-Augmented LLMs [48.7]
    本稿では,Tool-Augmented LLM向けに開発された最初のベンチマークであるAPI-Bankを紹介する。 API-Bankには、53の一般的なAPIツール、完全なツール拡張LLMワークフロー、264の注釈付き対話が含まれている。 実験の結果, GPT-3.5はGPT3に対してツールを使用できるが, GPT-4はプランニング性能が優れていた。
    論文  参考訳(メタデータ)   (Fri, 14 Apr 2023 14:05:32 GMT)
  • LLMのためのAPI利用ベンチマーク
  • データやコードは公開されているのだろうか?論文中にはリンクがなさそう。

CaFo: Cascade of Foundation models

  • Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners [55.1]
    CaFoは、様々な事前学習パラダイムの様々な事前知識を取り入れた、ファウンデーションのカスケードモデルである。 私たちのCaFoには、CLIPの言語コントラスト知識、DINOの視覚コントラスト知識、DALL-Eの視覚生成知識、GPT-3の言語生成知識が含まれています。
    論文  参考訳(メタデータ)   (Fri, 3 Mar 2023 18:58:16 GMT)
  • Foundationモデルを複数使うことによりfew shotでの画像分類で優れた性能を実現。寄せ集め感もあるがちゃんと性能が向上していて各モデルの知識が引き出せているのが面白い。
  • プロジェクトサイトはGitHub – ZrrSkywalker/CaFo: [CVPR 2023] Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners