コンテンツへスキップ
- Talk-to-Edit: Fine-Grained Facial Editing via Dialog [79.9]
Talk-to-Editは対話型顔編集フレームワークで、ユーザーとシステム間の対話を通じて微粒な属性操作を行う。 我々の重要な洞察は、GANラテント空間における連続的な「セマンティックフィールド」をモデル化することである。 本システムは,ユーザからの要求とセマンティックフィールドの状態の両方を考慮し,言語フィードバックを生成する。
論文 参考訳(メタデータ) (Thu, 9 Sep 2021 17:17:59 GMT)
- N15News: A New Dataset for Multimodal News Classification [7.8]
我々は、New York Timesから15のカテゴリで生成され、各ニュースにテキスト情報と画像情報の両方を含む新しいデータセット、N15Newsを提案する。 融合方式の異なる新しいマルチタスクマルチモーダルネットワークを設計し,テキストのみのニュース分類よりも多モーダルニュース分類が優れていることを示す実験を行った。
論文 参考訳(メタデータ) (Mon, 30 Aug 2021 15:46:09 GMT) - マルチモーダル(画像+テキスト)なデータセットの提案。200kと大規模でありリアルなニュースであることから有用性が高いと思われる。著者らの実験ではマルチモーダルなデータの利用が精度を改善するとのこと。
- データはPDFからGoogle driveで共有されている。
- LayoutReader: Pre-training of Text and Layout for Reading Order Detection [46.8]
ReadingBankは50万のドキュメントイメージの読み込み順序、テキスト、レイアウト情報を含むベンチマークデータセットである。 この最初の大規模なデータセットは、読み取り順序検出のためのディープニューラルネットワークのパワーを解放する。
論文 参考訳(メタデータ) (Thu, 26 Aug 2021 05:52:32 GMT)- 現実的なデータに対してOCRを行うときに問題となる読み取り順の検出に関する報告。読み出し順序、テキスト、レイアウト情報からなる50万ページ分のベンチマークデータセット「ReadingBank」を構築、テキスト情報をレイアウト情報を併用するアプローチ(LayoutReader)でヒューリスティックな方法を大きく上回る性能を出したとのこと。
- Product-oriented Machine Translation with Cross-modal Cross-lingual Pre-training [47.2]
製品指向機械翻訳(PMT)は、世界中のeショップ向けに必要不可欠である。 ドメインの専門性のため、PMTタスクは従来の機械翻訳問題よりも難しい。 本稿では,Fashion-MMTと呼ばれる大規模バイリンガル製品記述データセットを最初に構築する。 製品指向のクロスモーダル言語モデル(upoc2)を事前学習と微調整のために設計する。
論文 参考訳(メタデータ) (Wed, 25 Aug 2021 08:36:01 GMT)- 製品説明のような状況では画像を用いてクロスモーダルな機械翻訳を行うことが重要とした論文。Unified Product-Oriented Cross-modal Cross-lingual model (UPOC2) を提案。
- マルチモーダル性を利用した翻訳が広まっていくと面白いと思う。個人的には顔画像の感情分析を併用したようなモデルを作ってみたいと思ったり思わなかったり。
- リポジトリはhttps://github.com/syuqings/Fashion-MMT
- Detection of Illicit Drug Trafficking Events on Instagram: A Deep Multimodal Multilabel Learning Approach [18.2]
Instagram上では、違法薬物密売事件(IDTE)の詳細な検出に関する最初の系統的研究を行っている。 具体的には,本モデルでは,テキストと画像データを入力とし,マルチモーダル情報を組み合わせて複数の違法薬物のラベルを予測する。 我々は,不正薬物の詳細な検出を支援するために,手動で注釈付き複数の薬物ラベルを付加した大規模データセットMM-IDTEを構築した。
論文 参考訳(メタデータ) (Mon, 23 Aug 2021 02:13:56 GMT)- マルチモーダルなモデルを用いた違法薬物の検出。単一情報のみの場合は画像よりもテキストによる検出が優れていたが、画像情報を加えテキスト+画像で検知することで能力が大幅に向上したとのこと。
- 直感的にもマルチモーダルに適した実用的な問題のように思える。
- MMChat: Multi-Modal Chat Dataset on Social Media [8.9]
MMChatは大規模多モード対話コーパス(32.4Mの生対話と120.84Kのフィルタリング対話) 架空の映画からクラウドソースまたは収集された以前のコーパスとは異なり、MMChatはソーシャルメディア上の実際の会話から収集された画像付き対話を含んでいる。 画像特徴量にアテンションルーティング機構を適用することで,対話生成タスクにおけるこの問題に対処するベンチマークモデルを開発した。
論文 参考訳(メタデータ) (Mon, 16 Aug 2021 15:27:49 GMT)- マルチモーダルな対話データセット。120K対話、200K画像と大規模。
- 「コンテンツに対するURLだけが、ダウンロードスクリプトとともにリリースされる」「ユーザーは、学術的な目的以外にMMCHATを乱用しないことを約束する保証状に署名する必要がある」とのことで簡単にダウンロードできるデータでは無いよう。
- Abstractive Sentence Summarization with Guidance of Selective Multimodal Reference [3.5]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。 提案したmhsfモデルの汎用性を,事前学習+微調整およびフレッシュトレーニング戦略を用いて評価した。
論文 参考訳(メタデータ) (Wed, 11 Aug 2021 09:59:34 GMT)- テキスト、画像、音声→テキストな抽象型要約に関する論文。マルチモーダル性をうまく利用することで既存手法より優れていると報告。人間による評価を併用している点、そこでも高スコアであることが興味深い。
- Image Retrieval on Real-life Images with Pre-trained Vision-and-Language Models [41.7]
合成画像検索のタスクを拡張し、入力クエリは画像と、画像の修正方法に関する短いテキスト記述から構成される。 CIRPLANTは、自然言語で条件付けられた視覚的特徴を修正するために、学習済みの視覚と言語(V&L)の知識を豊富に活用するトランスフォーマーモデルである。 比較的単純なアーキテクチャで、CIRPLANTは、ファッションのような既存の狭いデータセットの最先端の精度を一致させながら、オープンドメイン画像の既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (Mon, 9 Aug 2021 13:25:06 GMT) - テキストによるフィードバックを条件とする画像検索を前提にデータセットとモデルを提案している。論文またはプロジェクトサイトの具体例を見るのが分かりやすいが、「1匹の犬の画像」と「同じ犬種の2匹が床にいる」というテキストを与えて「同じ犬種の2匹の犬が床にいる」画像を探すというタスク。マルチモーダルの取り扱いが必要で実用的なタスクのように感じる。
- プロジェクトサイトはhttps://cuberick-orion.github.io/CIRR/
- StrucTexT: Structured Text Understanding with Multi-Modal Transformers [29.5]
Visually Rich Documents (VRD)における構造化テキスト理解は、ドキュメントインテリジェンスの重要な部分である。 本稿では,SrucTexTという統合フレームワークを提案する。 セグメントレベルおよびトークンレベルで構造化されたテキスト理解の手法を評価し,その手法が最先端のテキスト理解よりも優れていることを示す。
論文 参考訳(メタデータ) (Fri, 6 Aug 2021 02:57:07 GMT)
- UniCon: Unified Context Network for Robust Active Speaker Detection [111.9]
我々は、堅牢なアクティブ話者検出(ASD)のための新しい効率的なフレームワークUnified Context Network(UniCon)を導入する。 私たちのソリューションは、複数の種類のコンテキスト情報を共同でモデリングすることに焦点を当てた、新しく統合されたフレームワークです。 異なる設定下で、いくつかの挑戦的なASDベンチマークで徹底的なアブレーション研究が実施されている。
論文 参考訳(メタデータ) (Thu, 5 Aug 2021 13:25:44 GMT)