Video Transformerのサーベイ

  • Video Transformers: A Survey [42.3]
    ビデオデータのモデル化にトランスフォーマーを適用するための貢献とトレンドについて検討する。 具体的には、ビデオの埋め込みとトークン化の方法を掘り下げて、大きなCNNバックボーンの非常にウィドスプレッドな使用法を見つけます。 また,ビデオトランスフォーマーの訓練に使用される自己監督的損失の分析を行った。
    論文  参考訳(メタデータ)   (Sun, 16 Jan 2022 07:31:55 GMT)
    • 動画処理にもTransformerが使われていることがよくわかるサーベイ

Data2vec: speech、vision、textで動作する自己教師有り学習

2vecの最終系かと思うData2vecが出ていた。Transformerをベースにタスク特有のエンコーディングを実施、objectiveは共通化されている状況でViT-B、wav2vec2/HuBERT、RoBERTaと競争的な性能とのこと。

論文はData2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language (facebook.com)、リポジトリはfairseq/examples/data2vec at main · pytorch/fairseq · GitHub

Omnivore: 多くのモダリティで効果的なモデル

  • Omnivore: A Single Model for Many Visual Modalities [47.9]
    以前の研究は、異なる視覚的モダリティを分離して研究し、画像、ビデオ、および3Dデータの認識のためのアーキテクチャを別々に開発してきた。 同一のモデルパラメータを用いて,画像,ビデオ,シングルビューの3Dデータの分類に優れる単一モデルを提案する。
    論文  参考訳(メタデータ)   (Thu, 20 Jan 2022 18:58:03 GMT)
    • 画像関連のデータ(普通の画像、動画、シングルビューの3D)について共通的に動作可能な(複数のモダリティに対応可能な)モデルの提案。リポジトリを見ると複数のタスクでSoTAを達成している。各モダリティ専用の構造でないにもかかわらず優れた性能を出せるのは驚き。

LSeg: 言語駆動型のセマンティックセグメンテーション

  • Language-driven Semantic Segmentation [88.2]
    本稿では,言語駆動型セマンティックイメージセグメンテーションの新しいモデルLSegを提案する。 テキストエンコーダを用いて記述型入力ラベルの埋め込みを計算する。 エンコーダは、画素埋め込みを対応するセマンティッククラスのテキスト埋め込みに合わせるために、対照的な目的で訓練される。
    論文  参考訳(メタデータ)   (Mon, 10 Jan 2022 18:59:10 GMT)
    • BackboneとなるVisionのモデル(ViT or ResNet)にCLIPを組み合わせることでゼロショットでの(ラベルを任意に設定可能な)セマンティックセグメンテーションを実現。マルチモーダルな処理に可能性と未来を感じる。
    • リポジトリはGitHub – isl-org/lang-seg: Language-Driven Semantic Segmentation

DeepLearingによる数学の問題生成と解決

  • A Neural Network Solves and Generates Mathematics Problems by Program Synthesis: Calculus, Differential Equations, Linear Algebra, and More [8.4]
    質問をプログラミングタスクに変換し、プログラムを自動的に生成し、実行します。 これは、大学レベルの数学コースの質問を自動的に解き、評価し、生成する最初の作品である。
    論文  参考訳(メタデータ)   (Fri, 31 Dec 2021 18:57:31 GMT)
    • (深層学習で解くのは難しいとされていた)数学の問題が事前学習済みモデル(Transformer)+プログラミングタスクとしてのfine tuningで解けるとの報告。

KAT(Knowledge Augmented Transformer): 画像/言語用の外部知識活用

  • KAT: A Knowledge Augmented Transformer for Vision-and-Language [56.7]
    我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。 提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。 我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
    論文  参考訳(メタデータ)   (Thu, 16 Dec 2021 04:37:10 GMT)
    • Explicit knowledgeをWikipediaなどのリソースから、Implicit knowledgeをGPT-3から取り出して統合、質問に回答する手法の提案。OK-VQA (allenai.org)で既存のSoTAを大幅に更新とのこと。
    • アプローチは論文4ページの図が分かりやすく(それでも複雑だが)、既存モジュールを組み合わせてパイプラインを組んでいる。

UniLog: ログ解析タスクを扱う統一モデル

  • UniLog: Deploy One Model and Specialize it for All Log Analysis Tasks [11.4]
    本研究では,マルチタスク学習手法としてログ解析を定式化し,様々なログ分析タスクを実行できる単一モデルを訓練することを提案する。この統合ログ分析手法をUniLogと呼ぶ。4つのログ分析タスクに関する7つのデータセットにわたる大規模な実験は、UniLogが顕著なパフォーマンスを達成することを示す。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 6 Dec 2021 16:49:33 GMT)
    • ログ分析タスク(anomaly detection, failure prediction, log compression, log summarization)を統一的に扱える手法を提案、7つのデータセットでSoTAまたはそれに近い結果を達成とのこと。

BOVText: ビデオ-テキストデータセットとend-to-endなモデル

  • A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer [12.2]
    大規模でバイリンガルなオープンワールドビデオテキストベンチマークデータセット(BOVText)を導入する。 まず、1,750,000フレーム以上の2,000以上のビデオを提供しています。 第2に、私たちのデータセットは30以上のオープンカテゴリをカバーしており、Life Vlog、Driving、Movieなど、さまざまなシナリオが選択できます。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 9 Dec 2021 13:21:26 GMT)

Transformer + scratchpad: 事前学習モデル+スクラッチパッドを用いた処理

  • Show Your Work: Scratchpads for Intermediate Computation with Language Models [41.6]
    大規模な事前訓練された言語モデルは、”1回のパスで”実行できるタスクで驚くほどうまく機能します。 これらのモデルが「ステップ・バイ・ステップ」の実行を依頼された場合、複雑なマルチステップ計算を行うことができることがわかった。 特に、中間計算ステップを「スクラッチパッド」に出力するように指示することで、トランスフォーマーにマルチステップ計算をするよう訓練する。
    論文  参考訳(メタデータ)   (Tue, 30 Nov 2021 21:32:46 GMT)
    • 中間ステップをスクラッチパッド(バッファ)に出力しながら処理することで、これまで苦手とされていた計算やプログラム実行のタスクで優れた性能を発揮できたとのこと。
      • 人がやる事っぽく面白い結果。

Donut: OCRを用いないドキュメント理解

  • Donut: Document Understanding Transformer without OCR [17.4]
    我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。 提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
    論文  参考訳(メタデータ)   (Tue, 30 Nov 2021 18:55:19 GMT)
    • OCRを用いないドキュメント理解手法の提案。レシート読み取りタスクにおいてend to endででOCR→BERTより大幅に優れているのは驚き。