Transformer – ページ 6 – arXiv最新論文の紹介

医療画像におけるTransformerのサーベイ

Transformers in Medical Image Analysis: A Review [46.7]
本稿では,医療画像解析分野におけるトランスフォーマーの意識と応用を促進するために,位置紙とプライマーの両方を提示する。具体的には、まず、Transformerや他の基本的なコンポーネントに組み込まれたアテンションメカニズムのコア概念について概説する。第2に,医療画像の応用に適したトランスフォーマーアーキテクチャの新しい分類法を提案し,その限界について議論する。
論文参考訳（メタデータ）参考訳（全文） (Thu, 24 Feb 2022 16:04:03 GMT)
- 医療画像解析を対象にしたTransformerベースのモデルのサーベイ。すでに多くの事例があるが、多くの場合他分野のアーキテクチャを医療用に直接応用しており、高度な解析やモデルの問題（parallelization, interpretability, quantiﬁcation and safetyが挙げられている）に焦点を当てたものは少ないとのこと。
  - ドメイン特化型のアーキテクチャは少ない？

SCRIPT(StruCtural RelatIve Position): ソースコードの要約

Source Code Summarization with Structural Relative Position Guided Transformer [19.8]
ソースコードの要約は、プログラミング言語の簡潔で明確な自然言語記述を生成することを目的としている。近年の取り組みは、Transformerなどのニューラルネットワークにコードの構文構造を組み込むことに重点を置いている。 SCRIPTと呼ばれる構造相対位置案内変換器を提案する。
論文参考訳（メタデータ） (Mon, 14 Feb 2022 07:34:33 GMT)
- ソースコードの要約（ソースコードに対して短い自然言語の記述を生成）にTransformer型の構造を適用、優れた性能を達成。
  - （略称は無理やり感があるが）有用な研究、様々なアプローチがあり興味深い。
- リポジトリはGitHub – GoneZ5/SCRIPT

WebFormer: WEBページからの情報抽出

WebFormer: The Web-page Transformer for Structure Information Extraction [44.5]
構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
論文参考訳（メタデータ） (Tue, 1 Feb 2022 04:44:02 GMT)
- Webページの構造解析にTransformerベースの新たなモデルを提案、SWDEとCommon CrawlベンチマークでSoTAとのこと。単純なテキストベースの手法ではなく、エンコーダー部分にHTML-to-HTML(H2H)、HTML-to-Text(H2T)、Text-to-HTML(T2H)、Text-to-Text(T2T)など様々なアテンションを備えているのが特徴とのこと。

VRT(Video Restoration Transformer)

VRT: A Video Restoration Transformer [126.8]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文参考訳（メタデータ） (Fri, 28 Jan 2022 17:54:43 GMT)
- ビデオの超解像技術にTrasnsformerを用いる研究。super-resolution、 deblurring、denoisingで優れた性能を達成とのこと。
- プロジェクトサイトはGitHub – JingyunLiang/VRT: VRT: A Video Restoration Transformer

Video Transformerのサーベイ

Video Transformers: A Survey [42.3]
ビデオデータのモデル化にトランスフォーマーを適用するための貢献とトレンドについて検討する。具体的には、ビデオの埋め込みとトークン化の方法を掘り下げて、大きなCNNバックボーンの非常にウィドスプレッドな使用法を見つけます。また,ビデオトランスフォーマーの訓練に使用される自己監督的損失の分析を行った。
論文参考訳（メタデータ） (Sun, 16 Jan 2022 07:31:55 GMT)
- 動画処理にもTransformerが使われていることがよくわかるサーベイ

Data2vec: speech、vision、textで動作する自己教師有り学習

2vecの最終系かと思うData2vecが出ていた。Transformerをベースにタスク特有のエンコーディングを実施、objectiveは共通化されている状況でViT-B、wav2vec2/HuBERT、RoBERTaと競争的な性能とのこと。

論文はData2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language (facebook.com)、リポジトリはfairseq/examples/data2vec at main · pytorch/fairseq · GitHub

Omnivore: 多くのモダリティで効果的なモデル

Omnivore: A Single Model for Many Visual Modalities [47.9]
以前の研究は、異なる視覚的モダリティを分離して研究し、画像、ビデオ、および3Dデータの認識のためのアーキテクチャを別々に開発してきた。同一のモデルパラメータを用いて,画像,ビデオ,シングルビューの3Dデータの分類に優れる単一モデルを提案する。
論文参考訳（メタデータ） (Thu, 20 Jan 2022 18:58:03 GMT)
- 画像関連のデータ（普通の画像、動画、シングルビューの3D）について共通的に動作可能な（複数のモダリティに対応可能な）モデルの提案。リポジトリを見ると複数のタスクでSoTAを達成している。各モダリティ専用の構造でないにもかかわらず優れた性能を出せるのは驚き。
- リポジトリはGitHub – facebookresearch/omnivore: Omnivore: A Single Model for Many Visual Modalities

LSeg: 言語駆動型のセマンティックセグメンテーション

Language-driven Semantic Segmentation [88.2]
本稿では,言語駆動型セマンティックイメージセグメンテーションの新しいモデルLSegを提案する。テキストエンコーダを用いて記述型入力ラベルの埋め込みを計算する。エンコーダは、画素埋め込みを対応するセマンティッククラスのテキスト埋め込みに合わせるために、対照的な目的で訓練される。
論文参考訳（メタデータ） (Mon, 10 Jan 2022 18:59:10 GMT)
- BackboneとなるVisionのモデル（ViT or ResNet）にCLIPを組み合わせることでゼロショットでの（ラベルを任意に設定可能な）セマンティックセグメンテーションを実現。マルチモーダルな処理に可能性と未来を感じる。
- リポジトリはGitHub – isl-org/lang-seg: Language-Driven Semantic Segmentation

DeepLearingによる数学の問題生成と解決

A Neural Network Solves and Generates Mathematics Problems by Program Synthesis: Calculus, Differential Equations, Linear Algebra, and More [8.4]
質問をプログラミングタスクに変換し、プログラムを自動的に生成し、実行します。これは、大学レベルの数学コースの質問を自動的に解き、評価し、生成する最初の作品である。
論文参考訳（メタデータ） (Fri, 31 Dec 2021 18:57:31 GMT)
- （深層学習で解くのは難しいとされていた）数学の問題が事前学習済みモデル（Transformer）＋プログラミングタスクとしてのfine tuningで解けるとの報告。

KAT(Knowledge Augmented Transformer): 画像/言語用の外部知識活用

KAT: A Knowledge Augmented Transformer for Vision-and-Language [56.7]
我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
論文参考訳（メタデータ） (Thu, 16 Dec 2021 04:37:10 GMT)
- Explicit knowledgeをWikipediaなどのリソースから、Implicit knowledgeをGPT-3から取り出して統合、質問に回答する手法の提案。OK-VQA (allenai.org)で既存のSoTAを大幅に更新とのこと。
- アプローチは論文4ページの図が分かりやすく（それでも複雑だが）、既存モジュールを組み合わせてパイプラインを組んでいる。

月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31