LSeg: 言語駆動型のセマンティックセグメンテーション

  • Language-driven Semantic Segmentation [88.2]
    本稿では,言語駆動型セマンティックイメージセグメンテーションの新しいモデルLSegを提案する。 テキストエンコーダを用いて記述型入力ラベルの埋め込みを計算する。 エンコーダは、画素埋め込みを対応するセマンティッククラスのテキスト埋め込みに合わせるために、対照的な目的で訓練される。
    論文  参考訳(メタデータ)   (Mon, 10 Jan 2022 18:59:10 GMT)
    • BackboneとなるVisionのモデル(ViT or ResNet)にCLIPを組み合わせることでゼロショットでの(ラベルを任意に設定可能な)セマンティックセグメンテーションを実現。マルチモーダルな処理に可能性と未来を感じる。
    • リポジトリはGitHub – isl-org/lang-seg: Language-Driven Semantic Segmentation

DeepLearingによる数学の問題生成と解決

  • A Neural Network Solves and Generates Mathematics Problems by Program Synthesis: Calculus, Differential Equations, Linear Algebra, and More [8.4]
    質問をプログラミングタスクに変換し、プログラムを自動的に生成し、実行します。 これは、大学レベルの数学コースの質問を自動的に解き、評価し、生成する最初の作品である。
    論文  参考訳(メタデータ)   (Fri, 31 Dec 2021 18:57:31 GMT)
    • (深層学習で解くのは難しいとされていた)数学の問題が事前学習済みモデル(Transformer)+プログラミングタスクとしてのfine tuningで解けるとの報告。

KAT(Knowledge Augmented Transformer): 画像/言語用の外部知識活用

  • KAT: A Knowledge Augmented Transformer for Vision-and-Language [56.7]
    我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。 提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。 我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
    論文  参考訳(メタデータ)   (Thu, 16 Dec 2021 04:37:10 GMT)
    • Explicit knowledgeをWikipediaなどのリソースから、Implicit knowledgeをGPT-3から取り出して統合、質問に回答する手法の提案。OK-VQA (allenai.org)で既存のSoTAを大幅に更新とのこと。
    • アプローチは論文4ページの図が分かりやすく(それでも複雑だが)、既存モジュールを組み合わせてパイプラインを組んでいる。

UniLog: ログ解析タスクを扱う統一モデル

  • UniLog: Deploy One Model and Specialize it for All Log Analysis Tasks [11.4]
    本研究では,マルチタスク学習手法としてログ解析を定式化し,様々なログ分析タスクを実行できる単一モデルを訓練することを提案する。この統合ログ分析手法をUniLogと呼ぶ。4つのログ分析タスクに関する7つのデータセットにわたる大規模な実験は、UniLogが顕著なパフォーマンスを達成することを示す。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 6 Dec 2021 16:49:33 GMT)
    • ログ分析タスク(anomaly detection, failure prediction, log compression, log summarization)を統一的に扱える手法を提案、7つのデータセットでSoTAまたはそれに近い結果を達成とのこと。

BOVText: ビデオ-テキストデータセットとend-to-endなモデル

  • A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer [12.2]
    大規模でバイリンガルなオープンワールドビデオテキストベンチマークデータセット(BOVText)を導入する。 まず、1,750,000フレーム以上の2,000以上のビデオを提供しています。 第2に、私たちのデータセットは30以上のオープンカテゴリをカバーしており、Life Vlog、Driving、Movieなど、さまざまなシナリオが選択できます。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 9 Dec 2021 13:21:26 GMT)

Transformer + scratchpad: 事前学習モデル+スクラッチパッドを用いた処理

  • Show Your Work: Scratchpads for Intermediate Computation with Language Models [41.6]
    大規模な事前訓練された言語モデルは、”1回のパスで”実行できるタスクで驚くほどうまく機能します。 これらのモデルが「ステップ・バイ・ステップ」の実行を依頼された場合、複雑なマルチステップ計算を行うことができることがわかった。 特に、中間計算ステップを「スクラッチパッド」に出力するように指示することで、トランスフォーマーにマルチステップ計算をするよう訓練する。
    論文  参考訳(メタデータ)   (Tue, 30 Nov 2021 21:32:46 GMT)
    • 中間ステップをスクラッチパッド(バッファ)に出力しながら処理することで、これまで苦手とされていた計算やプログラム実行のタスクで優れた性能を発揮できたとのこと。
      • 人がやる事っぽく面白い結果。

Donut: OCRを用いないドキュメント理解

  • Donut: Document Understanding Transformer without OCR [17.4]
    我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。 提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
    論文  参考訳(メタデータ)   (Tue, 30 Nov 2021 18:55:19 GMT)
    • OCRを用いないドキュメント理解手法の提案。レシート読み取りタスクにおいてend to endででOCR→BERTより大幅に優れているのは驚き。

Point-BERT: 点群処理のためのBERT

  • Point-BERT: Pre-training 3D Point Cloud Transformers with Masked Point Modeling [104.8]
    BERTの概念を3Dポイントクラウドに一般化するための新しいパラダイムであるPoint-BERTを提案する。 提案したBERTスタイルの事前学習戦略は,標準点クラウドトランスフォーマーの性能を著しく向上することを示す実験である。
    論文  参考訳(メタデータ)   (Mon, 29 Nov 2021 18:59:03 GMT)

PolyViT: 複数種類のデータを一元的に扱うTransformer

  • PolyViT: Co-training Vision Transformers on Images, Videos and Audio [80.1]
    我々は、画像、オーディオ、ビデオに基づいて訓練されたモデルであるPolyViTを紹介する。 1つのモードで異なるタスクを共同トレーニングすることで、個々のタスクの精度を向上させることができる。 共同学習はシンプルで実践的であることを示す。
    論文  参考訳(メタデータ)   (Thu, 25 Nov 2021 10:01:05 GMT)
    • パラメータの多くを共有しつつ複数のモダリティを扱いえるアーキテクチャの提案。9つのimage-classification, video-classification, audio-classificationを同時に解決可能、3つのビデオと2つのオーディオデータセットでSoTAとのこと。前の投稿とも関連する報告。
      • Transfomerの強力さがよくわかると同時にモダリティ間に何らかの関連があるのだろうか。。

PhysFormer: RPPG(Remote Photoplethysmography/顔動画からの生体情報取得)で有効なモデル

  • PhysFormer: Facial Video-based Physiological Measurement with Temporal Difference Transformer [55.9]
    近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙な手がかりのマイニングに重点を置いている。 本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
    論文  参考訳(メタデータ)   (Tue, 23 Nov 2021 18:57:11 GMT)