HybridQAのサーベイ

  • A Survey on Table-and-Text HybridQA: Concepts, Methods, Challenges and Future Directions [46.1]
    表とテキストのハイブリッドな質問応答 (HybridQA) は、金融分野や科学分野に広く採用されているNLPタスクである。 本稿では,現在のHybridQAベンチマークと手法を要約し,課題と今後の方向性について分析する。
    論文  参考訳(メタデータ)   (Tue, 27 Dec 2022 12:34:57 GMT)
  • 表+テキストを対象とした質問応答タスクのサーベイ
  • 実用性が高いがまだまだ簡単ではないタスク

X-Decoder

  • Generalized Decoding for Pixel, Image, and Language [197.9]
    画素レベルのセグメンテーションと言語トークンをシームレスに予測できる一般化デコードモデルであるX-Decoderを提案する。 X-Decoderは、すべてのタイプのイメージセグメンテーションと様々な視覚言語(VL)タスクをサポートする統一された方法を提供する最初の作品である。
    論文  参考訳(メタデータ)   (Wed, 21 Dec 2022 18:58:41 GMT)
  • 多様なセグメンテーションタスクに対応可能な視覚・言語モデル
  • X-Decoder: Generalized Decoding for Pixel, Image and Language (x-decoder-vl.github.io)

Multimodal Tree Decoder for Table of Contents Extraction in Document Images

  • Multimodal Tree Decoder for Table of Contents Extraction in Document Images [32.5]
    テーブル・オブ・コンテント(ToC)抽出は、文書の様々なレベルの見出しを抽出し、内容のアウトラインをよりよく理解することを目的としている。 まず,学術論文の650件の資料とコンテンツラベルによるイメージサンプルを含む,標準データセットであるHierDocを紹介した。 本稿では,ToCのマルチモーダルツリーデコーダ(MTD)をHierDocのベンチマークとして用いた新しいエンドツーエンドモデルを提案する。
    論文  参考訳(メタデータ)   (Tue, 6 Dec 2022 11:38:31 GMT)
  • Table of Contentsの自動生成モデルの開発。ベンチマーク用のデータセット作成も行っており、かつ、マルチモーダル。画像からの情報が多いというのは直感に反していない。
  • リポジトリはとのことだが、https://github.com/Pengfei-Hu/MTDまだ404

Learning to Dub Movies via Hierarchical Prosody Models

  • Learning to Dub Movies via Hierarchical Prosody Models [167.6]
    テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。 本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
    論文  参考訳(メタデータ)   (Thu, 8 Dec 2022 03:29:04 GMT)
  • 感情等を考慮した音声合成に関する研究。性能には様々な要素が絡むためAblation Studiesがとても参考になる。

Unifying Vision, Text, and Layout for Universal Document Processing

  • Unifying Vision, Text, and Layout for Universal Document Processing [105.4]
    本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。 我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
    論文  参考訳(メタデータ)   (Mon, 5 Dec 2022 22:14:49 GMT)
  • 画像、テキスト、レイアウトとすべての要素を一度に扱えるマルチモーダルなDocument Understandingモデル。多くのベンチマークでLayoutLM v3よりも高性能
  • リポジトリはmicrosoft/UDOP (github.com)

Improving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback

  • Improving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback [16.3]
    人工知能の重要な目標は、人間と自然に対話し、フィードバックから学ぶことができるエージェントを作ることである。 ここでは、人間のフィードバックから強化学習を用いて、シミュレーションされたエンボディエージェントを改善する方法を紹介する。
    論文  参考訳(メタデータ)   (Mon, 21 Nov 2022 16:00:31 GMT)
  • DeepMindによる全部入り強化学習のような論文。 “Inter-temporal Bradley-Terry” (IBT) modellingにより人間の判断をキャプチャする報酬モデルを構築できたとのこと。
    • 時間的な軌跡を考慮している点が特徴なのだろうか?
  • ビデオが公開されているImproving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback – YouTube

Retrieval-Augmented CM3 (RA-CM3) 

  • Retrieval-Augmented Multimodal Language Modeling [176.9]
    Retrieval-augmented CM3は、テキストと画像の混合を検索して生成できる最初のマルチモーダルモデルである。 RA-CM3は、知識集約型画像生成やマルチモーダルインコンテキスト学習のような新しい能力を示す。
    論文  参考訳(メタデータ)   (Tue, 22 Nov 2022 20:26:44 GMT)
    • 外部メモリを参照しながら生成等を行えるモデルの提案
    • ベースラインを上回り、パラメータ数、必要な計算リソースの面でも優秀とのこと

CLEVER: CKE as a distantLy supErVised multi-instancE leaRning

  • Visually Grounded Commonsense Knowledge Acquisition [132.4]
    大規模なコモンセンス知識ベースは、幅広いAIアプリケーションを促進する。 視覚知覚には、現実世界の実体に関する豊富な常識知識が含まれる。 本稿では,遠隔教師付きマルチインスタンス学習問題としてCKEを定式化するCLEVERを提案する。
    論文  参考訳(メタデータ)   (Tue, 22 Nov 2022 07:00:16 GMT)
  • vision-language pre-training model + 画像をソースとしたdistantly supervised learningでCommonsense Knowledgeを抽出する取り組み
  • リポジトリはthunlp/CLEVER (github.com)

Uni-Perceiver v2

  • Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language Tasks [86.7]
    大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。 具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。 Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。
    論文  参考訳(メタデータ)   (Thu, 17 Nov 2022 18:59:52 GMT)
  • 「first generalist model that achieves competitive results on major large-scale vision and vision-language tasks」を主張するモデルの提案
  • リポジトリはfundamentalvision/Uni-Perceiver (github.com)

InstructPix2Pix

  • InstructPix2Pix: Learning to Follow Image Editing Instructions [103.8]
    人間の指示から画像を編集する手法を提案する。 入力画像とモデルに何をすべきかを指示する命令が与えられたら、我々のモデルはこれらの命令に従って画像を編集します。 入力画像と書き起こしの多様なコレクションに対して、魅力的な編集結果を示す。
    論文  参考訳(メタデータ)   (Thu, 17 Nov 2022 18:58:43 GMT)
  • 指示によって画像を編集するモデルの提案。今までも様々な手法が提案されてきたが実用的なレベルになってきていると感じる
  • プロジェクトサイトはInstructPix2Pix (timothybrooks.com)、作例が凄い