Transformer – ページ 8 – arXiv最新論文の紹介

MTVM(Multimodal Transformer with Variable-length Memory)を用いたナビゲーション

Multimodal Transformer with Variable-length Memory for Vision-and-Language Navigation [79.2]
VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランスフォーマー (Multimodal Transformer) を提案する。
論文参考訳（メタデータ） (Wed, 10 Nov 2021 16:04:49 GMT)
- VLMを一見シンプルなTransformerで解き、優れた性能を達成とのこと。

Masked Autoencoders

Masked Autoencoders Are Scalable Vision Learners [61.0]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文参考訳（メタデータ）参考訳（全文） (Thu, 11 Nov 2021 18:46:40 GMT)
- Masked Autoencoderという自然言語処理を彷彿とさせる学習法の提案。ImageNet-1KでSoTAとのこと。

Masked Language Modelを用いたタンパク質表現学習

Pre-training Co-evolutionary Protein Representation via A Pairwise Masked Language Model [94.0]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。 Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文参考訳（メタデータ） (Fri, 29 Oct 2021 04:01:32 GMT)
- 自然言語処理の論文のような論文だが扱っている対象はタンパク質。LSTMも有効だったとのことでMLMに効果がありそうなのはわかるが、この手の構造が汎用的に有効なのか、バイオ系に特化した構造というのがあるのかないのかは興味がある。

s2s-ft: 自然言語生成に適した事前学習モデル

s2s-ft: Fine-Tuning Pretrained Transformer Encoders for Sequence-to-Sequence Learning [47.3]
条件付き生成タスクに予めトレーニングされたトランスフォーマーを採用するシーケンス・ツー・シーケンスの微調整ツールキット s2s-ft を提案する。 S2s-ftは抽象的な要約と質問生成のベンチマークで高い性能を達成する。
論文参考訳（メタデータ） (Tue, 26 Oct 2021 12:45:34 GMT)
生成系タスクに適したモデルの提案。同パラメータ数の比較でAbstract Summarization / CNNDMでPEGASUSを超える性能。
リポジトリはhttps://github.com/microsoft/unilm/tree/master/s2s-ft

DocTr: 画像の歪み・照明の補正

DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction [99.1]
文書画像の幾何学的および照明歪みに対処する文書画像変換器(DocTr)を提案する。 DocTrは20.02%のキャラクタエラー率(CER)を実現しています。
論文参考訳（メタデータ） (Mon, 25 Oct 2021 13:27:10 GMT)
- 現実的なデータを扱うために重要な画像の歪みを補正するモデルの提案
- リポジトリはhttps://github.com/fh2019ustc/doctr

Multi-document Summarization: サブグラフ選択として解くSgSum、Longformerを用いるPRIMER

SgSum: Transforming Multi-document Summarization into Sub-graph Selection [27.4]
既存の抽出多文書要約(MDS)手法は、各文を個別にスコアし、一つずつ有能な文を抽出して要約を構成する。サブグラフ選択問題としてMDSタスクを定式化する新しいMDSフレームワーク(SgSum)を提案する。我々のモデルは従来のMDS法と比較して、より一貫性があり、情報的な要約を生成できる。
論文参考訳（メタデータ）参考訳（全文） (Mon, 25 Oct 2021 05:12:10 GMT)
- グラフ構造を通してMulti-documentな要約を行う手法の提案。MultiNewsやDUC2004で優れた結果。
- リポジトリはhttps://github.com/PaddlePaddle/Research/tree/master/NLP/EMNLP2021-SgSumとのこと（現時点では404）

PRIMER: Pyramid-based Masked Sentence Pre-training for Multi-document Summarization [16.8]
要約に着目した多文書表現のための事前学習モデルであるPRIMERを提案する。具体的には,マルチドキュメント入力に適した適切な入力変換とグローバルアテンションを備えたLongformerアーキテクチャを採用する。私たちのモデルであるPRIMERは、これらのほとんどの設定において、現在の最先端モデルを大きなマージンで上回る。
論文参考訳（メタデータ）参考訳（全文） (Sat, 16 Oct 2021 07:22:24 GMT)
- こちらはグラフ構造ではなくLongformerを用いてマルチドキュメントに対処するアプローチ、MultiNewsなどでSoTA。
- リポジトリはhttps://github.com/allenai/PRIMER

MarkupLM: マークアップ情報を扱える言語モデル

MarkupLM: Pre-training of Text and Markup Language for Visually-rich Document Understanding [35.4]
テキスト、レイアウト、画像によるマルチモーダル事前学習は、ビジュアルリッチ文書理解(VrDU)において大きな進歩を遂げた。本稿では,マークアップ言語をバックボーンとする文書理解タスクのためのMarkupLMを提案する。実験の結果,事前学習したMarkupLMは,複数の文書理解タスクにおいて,既存の強力なベースラインモデルよりも大幅に優れていた。
論文参考訳（メタデータ） (Sat, 16 Oct 2021 09:17:28 GMT)
- テキストだけでなくマークアップ情報を併用して事前学習を行う言語モデルの提案。文書理解タスクで既存の強力なベースラインモデルを大幅に上回るとのこと。この手のデータは削除してしまうことも多いが情報があることは間違いない。自然な形で利用、性能向上に効果があるのは面白い。
- リポジトリはhttps://github.com/microsoft/unilm/tree/master/markuplmとのことだが現時点ではソース等はアップロードされていない。

Unlabeledデータを用いたフィールド抽出モデル

Field Extraction from Forms with Unlabeled Data [53.9]
本研究では,未ラベルデータを用いたフォームからフィールド抽出を行う新しいフレームワークを提案する。我々は,未ラベル形式からノイズの多い擬似ラベルをマイニングするためのルールベース手法を開発した。
論文参考訳（メタデータ）参考訳（全文） (Fri, 8 Oct 2021 17:50:12 GMT)
- ルールベースの手法で疑似ラベルを付与して学習、その後transformerベースの手法でモデルを改善していくという手法でField Extractionを行うという論文。現実的な対応という感じがして参考になる。論文で指摘されているようにセンシティブな情報が含まれていることも多いのでアノテーションを行わない（行うにしても少なくて済む）手法は重要。

MobileViT: 軽量・効率的な画像用Transformer

MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer [24.5]
モバイルデバイス用の軽量ビジョントランスフォーマであるMobileViTを紹介する。以上の結果から,MobileViT は CNN および ViT ベースのネットワークを,タスクやデータセット間で大幅に上回っていることがわかった。
論文参考訳（メタデータ） (Tue, 5 Oct 2021 17:07:53 GMT)
- パラメータ数が同等のMobileNetv3(CNN系)、DeIT(ViT系)を上回る性能を出せる軽量なVision Transformerの報告。結局、ViTs are slower than CNNsって・・・とは思わなくはないが、Transformerの利用は広まっているのでハードウェア演算による支援が普通になる未来を期待。
  - この論文はAppleからだしTransformer向けの計算支援をiPhoneに組み込んでほしい。（そしてFuguMTも高速化させたい）

Anomaly Transformer: Transformerを用いた異常検知

Anomaly Transformer: Time Series Anomaly Detection with Association Discrepancy [68.9]
異常の希少性のため, 系列全体と強い関連性を構築することは困難であり, 関連性は主に隣接点に集中していることが観察された。通常の点と異常点の間に本質的に区別可能な基準を示しており、これはAssociation Discrepancy として強調する。関係の一致を計算するために,Anomaly-Attention機構を備えたAnomaly-Transformer を提案する。Anomaly Transformerは、6つの教師なし時系列異常検出ベンチマークで最先端のパフォーマンスを達成する
論文参考訳（メタデータ） (Wed, 6 Oct 2021 10:33:55 GMT)
- Transformerを用いて優れた性能の異常検知が可能との論文。概要の通り単純なTransforerではない。Ablation studyの分析が面白い。

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31