Transformer – ページ 7 – arXiv最新論文の紹介

UniLog: ログ解析タスクを扱う統一モデル

UniLog: Deploy One Model and Specialize it for All Log Analysis Tasks [11.4]
本研究では,マルチタスク学習手法としてログ解析を定式化し,様々なログ分析タスクを実行できる単一モデルを訓練することを提案する。この統合ログ分析手法をUniLogと呼ぶ。4つのログ分析タスクに関する7つのデータセットにわたる大規模な実験は、UniLogが顕著なパフォーマンスを達成することを示す。
論文参考訳（メタデータ）参考訳（全文） (Mon, 6 Dec 2021 16:49:33 GMT)
- ログ分析タスク（anomaly detection, failure prediction, log compression, log summarization）を統一的に扱える手法を提案、7つのデータセットでSoTAまたはそれに近い結果を達成とのこと。

BOVText: ビデオ-テキストデータセットとend-to-endなモデル

A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer [12.2]
大規模でバイリンガルなオープンワールドビデオテキストベンチマークデータセット(BOVText)を導入する。まず、1,750,000フレーム以上の2,000以上のビデオを提供しています。第2に、私たちのデータセットは30以上のオープンカテゴリをカバーしており、Life Vlog、Driving、Movieなど、さまざまなシナリオが選択できます。
論文参考訳（メタデータ）参考訳（全文） (Thu, 9 Dec 2021 13:21:26 GMT)
- 大規模なOpen World Video Textベンチマークデータセットの提案。
- リポジトリはGitHub – weijiawu/TransVTSpotter: A new video text spotting framework with Transformer

Transformer + scratchpad: 事前学習モデル＋スクラッチパッドを用いた処理

Show Your Work: Scratchpads for Intermediate Computation with Language Models [41.6]
大規模な事前訓練された言語モデルは、”1回のパスで”実行できるタスクで驚くほどうまく機能します。これらのモデルが「ステップ・バイ・ステップ」の実行を依頼された場合、複雑なマルチステップ計算を行うことができることがわかった。特に、中間計算ステップを「スクラッチパッド」に出力するように指示することで、トランスフォーマーにマルチステップ計算をするよう訓練する。
論文参考訳（メタデータ） (Tue, 30 Nov 2021 21:32:46 GMT)
- 中間ステップをスクラッチパッド（バッファ）に出力しながら処理することで、これまで苦手とされていた計算やプログラム実行のタスクで優れた性能を発揮できたとのこと。
  - 人がやる事っぽく面白い結果。

Donut: OCRを用いないドキュメント理解

Donut: Document Understanding Transformer without OCR [17.4]
我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (Tue, 30 Nov 2021 18:55:19 GMT)
- OCRを用いないドキュメント理解手法の提案。レシート読み取りタスクにおいてend to endででOCR→BERTより大幅に優れているのは驚き。

Point-BERT: 点群処理のためのBERT

Point-BERT: Pre-training 3D Point Cloud Transformers with Masked Point Modeling [104.8]
BERTの概念を3Dポイントクラウドに一般化するための新しいパラダイムであるPoint-BERTを提案する。提案したBERTスタイルの事前学習戦略は,標準点クラウドトランスフォーマーの性能を著しく向上することを示す実験である。
論文参考訳（メタデータ） (Mon, 29 Nov 2021 18:59:03 GMT)
- MPM（Masked Point Modeling)というBERTにインスパイアされたタスクで事前学習、ModelNet40で優れた性能を発揮とのこと。
  - 点群にも進出と、BERTスタイルの処理は汎用性があるのだろうか。。
- リポジトリはGitHub – lulutang0608/Point-BERT: Pre-Training 3D Point Cloud Transformers with Masked Point Modeling

PolyViT: 複数種類のデータを一元的に扱うTransformer

PolyViT: Co-training Vision Transformers on Images, Videos and Audio [80.1]
我々は、画像、オーディオ、ビデオに基づいて訓練されたモデルであるPolyViTを紹介する。 1つのモードで異なるタスクを共同トレーニングすることで、個々のタスクの精度を向上させることができる。共同学習はシンプルで実践的であることを示す。
論文参考訳（メタデータ） (Thu, 25 Nov 2021 10:01:05 GMT)
- パラメータの多くを共有しつつ複数のモダリティを扱いえるアーキテクチャの提案。9つのimage-classiﬁcation, video-classiﬁcation, audio-classiﬁcationを同時に解決可能、3つのビデオと2つのオーディオデータセットでSoTAとのこと。前の投稿とも関連する報告。
  - Transfomerの強力さがよくわかると同時にモダリティ間に何らかの関連があるのだろうか。。

PhysFormer: RPPG(Remote Photoplethysmography/顔動画からの生体情報取得)で有効なモデル

PhysFormer: Facial Video-based Physiological Measurement with Temporal Difference Transformer [55.9]
近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙な手がかりのマイニングに重点を置いている。本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
論文参考訳（メタデータ） (Tue, 23 Nov 2021 18:57:11 GMT)
- 顔の動画から心拍数や呼吸頻度などの生体情報を得るためのTransformer系モデルの提案。VIPL-HRなど主要データセットで優れた性能を達成のとのこと。
- リポジトリはGitHub – ZitongYu/PhysFormer: Main codes of ‘PhysFormer: Facial Video-based Physiological Measurement with Temporal Difference Transformer’（現時点ではComing soonになっている）

UFO(UniFied TransfOrmer):画像/言語で単一/マルチモーダル対応のTransformer

UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.8]
視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
論文参考訳（メタデータ） (Fri, 19 Nov 2021 03:23:10 GMT)
- 単一のモーダル、マルチモーダルの両方をうまく扱えるTransformerの提案。VQA v2等で優れた性能を発揮。

Swin Transformer V2

Swin Transformer V2: Scaling Up Capacity and Resolution [45.5]
我々はSwin Transformerを最大30億のパラメータにスケーリングし、最大1,536×1,536解像度の画像でトレーニングできるようにする。キャパシティと解像度をスケールアップすることで、Swin Transformerは4つの代表的なビジョンベンチマークに新しいレコードを設定する。
論文参考訳（メタデータ）参考訳（全文） (Thu, 18 Nov 2021 18:59:33 GMT)
- Object Detectionなどで有名なSwin Transformerのversion 2（アーキテクチャにも手が入れられている）。下記リポジトリにSoTAが並ぶ優れた性能。
- リポジトリはhttps://github.com/microsoft/Swin-Transformer

Visual Transformersのサーベイ

A Survey of Visual Transformers [30.1]
注意に基づくエンコーダデコーダアーキテクチャであるTransformerは、自然言語処理の分野に革命をもたらした。コンピュータビジョン(CV)分野へのトランスフォーマーアーキテクチャの適用に関する先駆的な研究が最近行われている。我々は,3つの基本的なCVタスクに対して,100以上の異なる視覚変換器の総合的なレビューを行った。
論文参考訳（メタデータ） (Thu, 11 Nov 2021 07:56:04 GMT)
- 画像分野におけるTransformerのサーベイ。
- 同様のサーベイとしては下記がある（本論文でもイントロダクションで触れられている）
  - Transformers in Vision: A Survey (fugumt.com)
  - A Survey on Visual Transformer (fugumt.com)

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31