- MuRAG: Multimodal Retrieval-Augmented Generator for Open Question Answering over Images and Text [58.7]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。 MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。 以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (Thu, 6 Oct 2022 13:58:03 GMT)- マルチモーダルなRAG、モダリティを追加することで性能も相応に向上している。