Foundational Models Defining a New Era in Vision: A Survey and Outlook

Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.5]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文参考訳（メタデータ） (Tue, 25 Jul 2023 17:59:18 GMT)
コンピュータビジョン（＋LLM）のfoundational modelsのサーベイ。プロンプトを使うスタイルのモデルが主。EMBODIED FOUNDATIONAL AGENTSも扱われており、とても参考になる。
リソースがGitHub – awaisrauf/Awesome-CV-Foundational-Modelsにある。とても有用。

コメントを残す

コメントを残す コメントをキャンセル