- An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA [51.6]
本稿では,知識に基づくVQAのための画像キャプションを用いて,GPT3をプロンプトする簡易かつ効果的なPICaを提案する。 まず、まず、GPT-3が理解できるキャプション(タグ)に変換し、次に、GPT-3を適用してVQAタスクをfewショットで解決する。 PICaは16の例しか使用せず、OK-VQAデータセットで教師ありのSoTAを+8.6ポイント上回っている。
論文 参考訳(メタデータ) (Fri, 10 Sep 2021 17:51:06 GMT)- 画像からキャプションテキストを生成、そのテキストを使ってVQA(Visual Question Answering)タスクを解くという論文。このアーキテクチャで教師ありのsotaを上回るというのは驚き。
- GPT-3は何をどこまで知っているのだろう・・・?という感想
- 画像からキャプションテキストを生成、そのテキストを使ってVQA(Visual Question Answering)タスクを解くという論文。このアーキテクチャで教師ありのsotaを上回るというのは驚き。
日: 2021年9月14日
HyperCLOVA: 韓国の大規模事前学習モデル
- What Changes Can Large-scale Language Models Bring? Intensive Study on HyperCLOVA: Billions-scale Korean Generative Pretrained Transformers [16.6]
GPT-3は、数千億の大規模データに基づいて訓練された大規模言語モデル(LM)の、卓越したコンテキスト内学習能力を示す。 韓国中心の560Bトークンコーパスでトレーニングした82B GPT-3の韓国版、HyperCLOVAを紹介する。 我々は、プロンプトベースの学習のパフォーマンスの利点を示し、プロンプトエンジニアリングパイプラインにどのように組み込むことができるかを示す。
論文 参考訳(メタデータ) (Fri, 10 Sep 2021 03:32:19 GMT)- NAVERが構築した大規模事前学習モデルHyperCLOVAの論文。few-shotやPrompt tuningによる高い性能を確認。社内でHyperCLOVA StudioというNo Code AI paradigmを利用しているとのこと。
M5Product: 600万以上のマルチモーダルデータセット
- M5Product: A Multi-modal Pretraining Benchmark for E-commercial Product Downstream Tasks [94.8]
我々は600万以上のマルチモーダルペアからなるM5Productという大規模データセットをコントリビュートする。 M5Productには、画像、テキスト、テーブル、ビデオ、オーディオなど、複数のモードの豊富な情報が含まれている。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 9 Sep 2021 13:50:22 GMT)- e-コマースの画像、テキスト、テーブル、ビデオ、オーディオを含む6M件と大規模なマルチモーダルデータセット。このデータをもとにした検索・分類・クラスタリングなどのタスクで優れた性能を出すM5-MMTをベースラインとして提案。
- プロジェクトサイトはhttps://xiaodongsuper.github.io/M5Product_dataset/
最近公開化された画像-テキスト 4億ペアからなるLAION-400M などマルチモーダルな大規模データセットが公開されるのは非常にありがたい。