Foundation Models – ページ 3 – arXiv最新論文の紹介

FETA(Foundation Model for Expert Task Applications)ベンチマークとデータセット

FETA: Towards Specializing Foundation Models for Expert Task Applications [49.6]
ファンデーションモデル(FM)は、ゼロショット学習、高忠実度データ合成、ドメインの一般化など、前例のない機能を示した。この論文では、FMは、まだ専門家のタスクにおいて、出来の悪いパフォーマンスを保っていることを示します。本稿では,FMに技術資料の理解を促すことを目的として,その第1のFETAベンチマークを提案する。
論文参考訳（メタデータ） (Thu, 8 Sep 2022 08:47:57 GMT)
- Text-to-Image (T21) と Image-to-Text (I2T) の検索を対象に、専門家のタスクとして多様な自動車サービスマニュアルと販売(IKEA年次カタログ)にフォーカスしたベンチマークの提案。CLIPやFLAVAなどの既存モデルでは難しい問題になっているとのこと。
- 論文中にデータのダウンロードリンクがある。

Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence [34.5]
我々は,認知コンピューティング・自然言語研究センター(CCNL)が主導するFengshenbangというオープンソースプロジェクトを紹介した。私たちのプロジェクトには、大規模な事前トレーニングモデル、ユーザフレンドリなAPI、ベンチマーク、データセットなど、包括的な機能があります。オープンソースロードマップであるFengshenbangは、中国の事前訓練された大規模モデルのオープンソースコミュニティを再評価することを目的としている。
論文参考訳（メタデータ） (Wed, 7 Sep 2022 07:32:37 GMT)
- 中国語の大規模モデルのオープンソースプロジェクト。多くのタスクに対応しているようで非常にうらやましい。
- プロジェクトサイトは封神榜中文语言预训练模型开源计划 — Fengshenbang-LM 1.0 文档 (fengshenbang-doc.readthedocs.io)

Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks [87.6]
汎用多目的基礎モデルBEiT-3を紹介する。視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
論文参考訳（メタデータ） (Mon, 22 Aug 2022 16:55:04 GMT)
- vision、vision-languageの複数のタスクでSoTAを達成するfoundation model
- 画像を外国語（言語）として扱いその後の処理を行っていることが高性能のカギという興味深い主張。Imglishという言葉も面白い。
- プロジェクトサイトはunilm/beit at master · microsoft/unilm (github.com)

Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language [49.8]
大規模な基盤モデルは、トレーニングされたデータのドメインによって、ユニークな機能を示すことができます。このモデルの多様性は共生的であり,構造化ソクラテス対話を用いたAIシステム構築に活用可能であることを示す。
論文参考訳（メタデータ） (Fri, 1 Apr 2022 17:43:13 GMT)
- 複数のモデルが通信をしてfine tuning無しでタスクを解く方法の提案。プロンプトが流行しているのを見るにこのようなことは可能なんだろうが、ゼロショットの組み合わせは汎用人工知能っぽい未来を感じる。
- リポジトリはSocratic Models: Composing Zero-Shot Multimodal Reasoning with Language

On the Opportunities and Risks of Foundation Models [260.2]
ファンデーションAIモデルは、大規模なデータに基づいてトレーニングされており、幅広い下流タスクに適応できる。本報告では,基礎モデルの可能性とリスクについて概説する。これらの疑問に対処するためには、基礎モデルに関する重要な研究の多くは、深い学際的なコラボレーションが必要であると信じている。
論文参考訳（メタデータ） (Mon, 16 Aug 2021 17:50:08 GMT)
- StanfordのCenter for Research on Foundation Models (CRFM)による基礎モデル（≒大規模事前学習モデル）の可能性とリスクに関する論文。近年の大規模事前学習の状況と未来における課題について広範にまとまっている。114人の著者による211ページの論文であり書籍といっても良い規模。
- https://www.arxiv-vanity.com/で変換済みのようなので、ここからブラウザの翻訳等使うと読みやすいかもしれない。