コンテンツへスキップ
- KAT: A Knowledge Augmented Transformer for Vision-and-Language [56.7]
我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。 提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。 我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
論文 参考訳(メタデータ) (Thu, 16 Dec 2021 04:37:10 GMT)- Explicit knowledgeをWikipediaなどのリソースから、Implicit knowledgeをGPT-3から取り出して統合、質問に回答する手法の提案。OK-VQA (allenai.org)で既存のSoTAを大幅に更新とのこと。
- アプローチは論文4ページの図が分かりやすく(それでも複雑だが)、既存モジュールを組み合わせてパイプラインを組んでいる。