コンテンツへスキップ
- PaLI-X: On Scaling up a Multilingual Vision and Language Model [167.0]
マルチ言語ビジョンと言語モデルであるPaLI-Xをスケールアップする際のトレーニングレシピと結果を示す。 我々のモデルは、多種多様な複雑なタスクにおいて、新しいレベルのパフォーマンスを達成する。 複雑なカウントや多言語オブジェクト検出といった,トレーニングミックスに明示的に含まれないタスクの出現を観察する。
論文 参考訳(メタデータ) (Mon, 29 May 2023 18:58:38 GMT)
- PaLI: Pathways Language and Image – arXiv最新論文の紹介 (devneko.jp)の新バージョン(?)、Vision-Languageなタスクで優れた性能を達成
- モデルアーキテクチャはViT 22B + UL2 32B?
- KAT: A Knowledge Augmented Transformer for Vision-and-Language [56.7]
我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。 提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。 我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
論文 参考訳(メタデータ) (Thu, 16 Dec 2021 04:37:10 GMT)- Explicit knowledgeをWikipediaなどのリソースから、Implicit knowledgeをGPT-3から取り出して統合、質問に回答する手法の提案。OK-VQA (allenai.org)で既存のSoTAを大幅に更新とのこと。
- アプローチは論文4ページの図が分かりやすく(それでも複雑だが)、既存モジュールを組み合わせてパイプラインを組んでいる。
- IconQA: A New Benchmark for Abstract Diagram Understanding and Visual Language Reasoning [132.5]
IconQA(Icon Question Answering)の新たな課題を紹介する。 IconQAは107,439の質問と3つのサブタスクからなる大規模なデータセットである。 さらに、377クラスに645,687個のアイコンを含むアイコンデータセットIcon645をリリースしました。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 25 Oct 2021 18:52:26 GMT)