コンテンツへスキップ
- The Tabular Foundation Model TabPFN Outperforms Specialized Time Series Forecasting Models Based on Simple Features [40.2]
本稿では,TabPFNと単純な特徴工学を組み合わせ,予測性能を高めるための簡単なアプローチであるTabPFN-TSを提案する。 その単純さとわずか1100万のパラメータにもかかわらず、TabPFN-TSは類似サイズのモデルであるChronos-Miniよりも優れており、65倍のパラメータを持つChronos-Largeよりもわずかに優れている。
論文 参考訳(メタデータ) (Mon, 06 Jan 2025 11:38:19 GMT)
- なかなか難しい感のあるTabular Foundation Modelの提案。「By using a simple set of timestampderived features, our approach matches or slightly outperforms Chronos-T5 (Large), which, to our knowledge, is one of the strongest time series foundation models.」とのこと。時系列データの基礎的な動きを捉えられているのかもしれないが、使う場合はそのドメインでの検証はした方が良いのだろうなと思う。
- リポジトリはGitHub – PriorLabs/tabpfn-client: ⚡ Easy API access to the tabular foundation model TabPFN ⚡
- Cosmos World Foundation Model Platform for Physical AI [136.1]
物理AIには、自分自身のデジタルツイン、ポリシーモデル、そして世界のデジタルツイン、ワールドモデルが必要です。 私たちは、開発者が物理AIセットアップのためにカスタマイズされた世界モデルを構築するのを助けるために、Cosmos World Foundation Model Platformを紹介します。
論文 参考訳(メタデータ) (Tue, 07 Jan 2025 06:55:50 GMT)
- バズっていたNVIDIAによるWorld Foundation Model。「Our platform covers a video curation pipeline, pre-trained world foundation models, examples of post-training of pre-trained world foundation models, and video tokenizers.」と包括的な構成でモデルを公開しているのはすごい。
- 構築過程で「We refine our data by excluding specific video types that could lead to poor generation quality or unrealistic dynamics, such as abstract visual patterns, video game footage, animated content, etc.」があるのが面白かった。unrealistic dynamicsはそうだろうと思う。
- 現状は初期段階、問題も多そうではあるが今後の発展に期待。現状の進化で作れるのか、根幹のモデルアーキテクチャが変わらないとできないのか、とても興味がある。
- リポジトリはGitHub – NVIDIA/Cosmos: Cosmos is a world model development platform that consists of world foundation models, tokenizers and video processing pipeline to accelerate the development of Physical AI at Robotics & AV labs. Cosmos is purpose built for physical AI. The Cosmos repository will enable end users to run the Cosmos models, run inference scripts and generate videos.
- AnySat: An Earth Observation Model for Any Resolutions, Scales, and Modalities [5.8]
本稿では,JEPAと分解能適応型空間エンコーダに基づくマルチモーダルモデルであるAnySatを提案する。 この統一アプローチの利点を示すために、5ドルのマルチモーダルデータセットのコレクションであるGeoPlexをコンパイルする。 次に、これらの多様なデータセット上で、単一の強力なモデルを同時にトレーニングします。
論文 参考訳(メタデータ) (Wed, 18 Dec 2024 18:11:53 GMT)
- 様々な Earth observationデータを統合的に扱える基盤モデルの提案。「We have presented AnySat, a versatile architecture designed to address the diversity of EO data in terms of resolutions, scales, and modalities.」ということで効果も検証されている。
- リポジトリはGitHub – gastruc/AnySat
- Towards Unifying Understanding and Generation in the Era of Vision Foundation Models: A Survey from the Autoregression Perspective [31.5]
本稿では、最近の進歩を概観し、自己回帰的視覚基盤モデルの将来的な方向性について論じる。 我々は,次世代の視覚基礎モデルのトレンドを提示し,視覚タスクの理解と生成を統一する。 我々は、自己回帰的視覚基盤モデルを、その視覚トークン化剤と自己回帰バックボーンから分類する。
論文 参考訳(メタデータ) (Tue, 29 Oct 2024 16:48:22 GMT)
- テキスト分野だけではなく画像においてもさらには画像生成においても存在感を増すAutoregressionモデル、autoregressive vision foundation modelのサーベイ
- リポジトリはGitHub – EmmaSRH/ARVFM: Awesome autoregressive vision foundation models
- OS-ATLAS: A Foundation Action Model for Generalist GUI Agents [55.4]
OS-AtlasはGUIグラウンディングとOODエージェントタスクに優れた基礎的なGUIアクションモデルである。 現在までに1300万以上のGUI要素を含む、オープンソースのクロスプラットフォームGUI基盤コーパスをリリースしています。
論文 参考訳(メタデータ) (Wed, 30 Oct 2024 17:10:19 GMT)
- GUIを対象としたFoundation Action Modelの提案、Anthropicの発表もあって盛り上がっている領域。性能は「although GPT-4o with OS-Atlas-Base as the grounding module still lags behind human performance, it significantly outperforms other grounding methods such as SeeClick and Set-of-Mark (SoM)」とのこと。
- リポジトリはOS-Atlas Homepage
- A Survey of Foundation Models for Music Understanding [60.8]
この研究は、AI技術と音楽理解の交差に関する初期のレビューの1つである。 音楽理解能力に関して,近年の大規模音楽基盤モデルについて検討,分析,検証を行った。
論文 参考訳(メタデータ) (Sun, 15 Sep 2024 03:34:14 GMT)
- 「This work, to our best knowledge, is one of the early reviews of the intersection of AI techniques and music understanding.」とのこと。非常に包括的なサーベイ。
- Configurable Foundation Models: Building LLMs from a Modular Perspective [115.6]
LLMを多数の機能モジュールに分解する傾向が高まり、複雑なタスクに取り組むためにモジュールの一部とモジュールの動的アセンブリを推論することができる。 各機能モジュールを表すブロックという用語を造語し、モジュール化された構造をカスタマイズ可能な基礎モデルとして定義する。 検索とルーティング,マージ,更新,成長という,レンガ指向の4つの操作を提示する。 FFN層はニューロンの機能的特殊化と機能的ニューロン分割を伴うモジュラーパターンに従うことが判明した。
論文 参考訳(メタデータ) (Wed, 4 Sep 2024 17:01:02 GMT)
- Configurable Foundation Models、再構成可能なモジュール化された基盤モデルに関する研究、サーベイ
- 有用性は分かるが難しい問題との認識。model mergeなどの成果を見ると可能性を感じるとともに現時点では機能別の領域同定も簡単ではなさそうという印象。
- Sequential Modeling Enables Scalable Learning for Large Vision Models [120.9]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。 我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (Fri, 1 Dec 2023 18:59:57 GMT)
- ピクセル以外の情報を用いないモデルの提案、プロンプトもピクセル。「So, we graciously hand over to you, our gentle reader, the task of pondering whether our modest LVM also exhibits the much-vaunted ‘Sparks of AGI’.」というコメントが面白く、熱い。
- プロジェクトサイトはLarge Vision Models (yutongbai.com)
- Multimodal Foundation Models: From Specialists to General-Purpose Assistants [187.7]
専門モデルから汎用アシスタントへの移行に焦点をあて,視覚と視覚言語能力を示すマルチモーダル基礎モデルの分類と進化に関する包括的調査を行う。 対象読者は、コンピュータビジョンの研究者、大学院生、およびビジョン言語によるマルチモーダルコミュニティの専門家である。
論文 参考訳(メタデータ) (Mon, 18 Sep 2023 17:56:28 GMT)
- 特化型モデル → 汎用アシスタントという最近の潮流に関するサーベイ。100ページ近くの分量であり教科書に近い
- 研究の進展が非常に速い分野でもありとても重要な論文