コンテンツへスキップ
- Visually Grounded Commonsense Knowledge Acquisition [132.4]
大規模なコモンセンス知識ベースは、幅広いAIアプリケーションを促進する。 視覚知覚には、現実世界の実体に関する豊富な常識知識が含まれる。 本稿では,遠隔教師付きマルチインスタンス学習問題としてCKEを定式化するCLEVERを提案する。
論文 参考訳(メタデータ) (Tue, 22 Nov 2022 07:00:16 GMT)
- vision-language pre-training model + 画像をソースとしたdistantly supervised learningでCommonsense Knowledgeを抽出する取り組み
- リポジトリはthunlp/CLEVER (github.com)
- Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language Tasks [86.7]
大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。 具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。 Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。
論文 参考訳(メタデータ) (Thu, 17 Nov 2022 18:59:52 GMT)
- 「first generalist model that achieves competitive results on major large-scale vision and vision-language tasks」を主張するモデルの提案
- リポジトリはfundamentalvision/Uni-Perceiver (github.com)
- InstructPix2Pix: Learning to Follow Image Editing Instructions [103.8]
人間の指示から画像を編集する手法を提案する。 入力画像とモデルに何をすべきかを指示する命令が与えられたら、我々のモデルはこれらの命令に従って画像を編集します。 入力画像と書き起こしの多様なコレクションに対して、魅力的な編集結果を示す。
論文 参考訳(メタデータ) (Thu, 17 Nov 2022 18:58:43 GMT)
- 指示によって画像を編集するモデルの提案。今までも様々な手法が提案されてきたが実用的なレベルになってきていると感じる
- プロジェクトサイトはInstructPix2Pix (timothybrooks.com)、作例が凄い
- Multilingual Multimodality: A Taxonomical Survey of Datasets, Techniques, Challenges and Opportunities [10.7]
マルチ言語とマルチモーダル(MultiX)ストリームの統合について検討する。 我々は、並列アノテーションで研究された言語、金または銀のデータを調べ、これらのモダリティと言語がモデリングにおいてどのように相互作用するかを理解する。 モデリングアプローチの長所と短所とともに、どのシナリオを確実に使用できるのかをよりよく理解するために、モデリングアプローチについて説明します。
論文 参考訳(メタデータ) (Sun, 30 Oct 2022 21:46:01 GMT)
- Vision-Language Pre-training: Basics, Recent Advances, and Future Trends [158.3]
近年,マルチモーダルインテリジェンスのための視覚言語事前学習法が開発されている。 各カテゴリについて、最先端の手法の総合的なレビューを行い、現在進行中の進歩と課題について論じる。 また,研究コミュニティにおいて,大規模基盤モデル,統合モデリング,文脈内数発の学習,知識,堅牢性,コンピュータビジョンなど,高度なトピックが積極的に検討されていることについても論じる。
論文 参考訳(メタデータ) (Mon, 17 Oct 2022 17:11:36 GMT)- 画像-言語のマルチモーダルモデルに対する極めて詳細なサーベイ
- Imagic: Text-Based Real Image Editing with Diffusion Models [19.1]
我々は、複雑なテキストガイド付きセマンティック編集を1つの実画像に適用できることを実証する。 提案手法は1つの入力画像と1つのターゲットテキストのみを必要とする。 実際のイメージで動作し、追加の入力を必要としない。
論文 参考訳(メタデータ) (Mon, 17 Oct 2022 17:27:32 GMT)- 画像+指示で画像編集ができる手法提案。「鳥の画像」+「羽を広げる」で羽を広げた鳥の画像を生成可能。スタイル変換だけではなく物体の形も編集できているのが凄い。
- ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich Document Understanding [52.4]
レイアウト知識を向上した新しい文書事前学習ソリューションであるERNIEを提案する。 まず、直列化段階で入力シーケンスを並べ替え、相関的な事前学習タスクを示し、順序予測を行い、文書の適切な読み順序を学習する。 実験の結果、ERNIEは様々な下流タスクにおいて優れた性能を示し、キー情報に新たな最先端設定、文書質問応答を実現している。
論文 参考訳(メタデータ) (Wed, 12 Oct 2022 12:59:24 GMT)
- MuRAG: Multimodal Retrieval-Augmented Generator for Open Question Answering over Images and Text [58.7]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。 MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。 以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (Thu, 6 Oct 2022 13:58:03 GMT)- マルチモーダルなRAG、モダリティを追加することで性能も相応に向上している。
- Imagen Video: High Definition Video Generation with Diffusion Models [64.1]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。 imagen videoは忠実度の高い動画を生成するだけでなく、さまざまな芸術スタイルで多様なビデオやテキストアニメーションを生成できる機能や、3dオブジェクト理解機能など、高度な制御性と世界の知識も備えている。
論文 参考訳(メタデータ) (Wed, 5 Oct 2022 14:41:38 GMT)
- Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results [58.8]
ユーモアは人間の感情と認知の重要な要素である。 ユーモア検出の現在の方法は、単にステージ化されたデータに基づいており、’現実世界’のアプリケーションには不十分である。 約11時間の録音を含むPassau-Spontaneous Football Coach Humourデータセットについて紹介する。
論文 参考訳(メタデータ) (Wed, 28 Sep 2022 17:36:47 GMT)