- MIMIC-IT: Multi-Modal In-Context Instruction Tuning [44.9]
本稿では,280万のマルチモーダル・インストラクション・レスポンス・ペアからなるデータセットについて述べる。 MIMIC-ITデータセットを用いて、Otterはマルチモーダル認識、推論、文脈内学習において顕著な習熟度を示した。 我々はMIMIC-ITデータセット、命令応答型コレクションパイプライン、ベンチマーク、オッターモデルをリリースする。
論文 参考訳(メタデータ) (Thu, 8 Jun 2023 17:59:56 GMT) - 大規模なマルチモーダル(画像または動画)のinstruction-response データセット、日本語も含まれているとのこと
- リポジトリはGitHub – Luodian/Otter: 🦦 Otter, a multi-modal model based on OpenFlamingo (open-sourced version of DeepMind’s Flamingo), trained on MIMIC-IT and showcasing improved instruction-following and in-context learning ability.