2022年3月 – ページ 5 – arXiv最新論文の紹介

Audio Self-supervised Learningのサーベイ

Audio Self-supervised Learning: A Survey [60.4]
SSL(Self-Supervised Learning)は、人間のアノテーションを必要とせずに、大規模データから一般的な表現を見つけることを目的としている。コンピュータビジョンと自然言語処理の分野での成功により、近年では音声処理の分野で採用されている。
論文参考訳（メタデータ） (Wed, 2 Mar 2022 15:58:29 GMT)
- 音声分野でのSelf-supervised Learningをまとめたサーベイ。音声単体だけでなく音声＋Visionのようなマルチモーダルな手法もサーベイ対象となっている。

DiT(Document Image Transformer): Transformer + MIMな事前学習による文書構造認識

DiT: Self-supervised Pre-training for Document Image Transformer [85.8]
自己教師付き文書画像変換モデルであるDiTを提案する。さまざまなビジョンベースのDocument AIタスクでは,バックボーンネットワークとしてDiTを活用しています。実験結果から, 自己教師付き事前訓練型DiTモデルにより, 新たな最先端結果が得られることが示された。
論文参考訳（メタデータ） (Fri, 4 Mar 2022 15:34:46 GMT)
- Masked Image Modelingな大規模事前学習を行いDocument Image Transformerを構築、document image classiﬁcation、document layout analysis、 table detectionでSoTAとのこと。OCRの前処理などに重要であり、モデルが公開されているのがありがたい。
- リポジトリはunilm/dit at master · microsoft/unilm · GitHub

Vision-Language Intelligenceのサーベイ

Vision-Language Intelligence: Tasks, Representation Learning, and Large Models [32.1]
本稿では,時間的観点からの視覚言語知能の包括的調査について述べる。本稿では,この分野での開発を,タスク固有手法,視覚言語事前学習法,大規模弱ラベルデータによって強化された大規模モデルという3つの期間にまとめる。
論文参考訳（メタデータ） (Thu, 3 Mar 2022 18:54:59 GMT)
- Vision-Languageな研究の流れが分かるサーベイ。であると同時に特に最近は月単位で新たな手法が提案されていることが分かる。

PeerSum: ピアレビューを用いたMulti-document summarizationデータセット

PeerSum: A Peer Review Dataset for Abstractive Multi-document Summarization [37.5]
PeerSumは、科学出版物のピアレビューを用いた新しいMDSデータセットである。現在のMDSモデルは、PeerSumの高品質な要約を生成するのに苦労しています。
論文参考訳（メタデータ）参考訳（全文） (Thu, 3 Mar 2022 15:27:02 GMT)
- ICLRとNeurIPSのレビューデータをスクレイピング、メタレビュー部分を高品質な抽象型要約用データとして使えるとの指摘。レビュー→メタレビューという問題設定はそもそも実用上重要で面白い。
- リポジトリはGitHub – oaimli/PeerSum: PeerSum: A Peer Review Dataset for Abstractive Multi-document Summarization、現状ではアップされていない。

NoisyTune: PLMのfinetuneをよくするノイズ付与

NoisyTune: A Little Noise Can Help You Finetune Pretrained Language Models Better [98.6]
訓練済み言語モデル(PLM)の微調整は、下流タスクの成功に不可欠である。 PLMは、事前訓練の信号に過度に適合する危険性があり、下流のタスクと事前訓練のタスクの間にはギャップがある。 NoisyTuneは、微調整前にPLMのパラメータにいくつかのノイズを加えることで、下流タスクにおけるPLMの微調整を支援する。
論文参考訳（メタデータ）参考訳（全文） (Thu, 24 Feb 2022 11:08:02 GMT)
- 事前学習モデルのパラメータにノイズを加えるだけというシンプルな手法でfine tuning後の性能を向上させるという報告。ほんまかいなと思いつつ、一貫して性能が上がっているのが凄い。

Video Question Answeringのサーベイ

Video Question Answering: Datasets, Algorithms and Challenges [99.9]
Video Question Answering (VideoQA) は、与えられたビデオに応じて自然言語の質問に答えることを目的としている。本稿では、データセット、アルゴリズム、ユニークな課題に焦点を当てた、ビデオQAの明確な分類と包括的分析を提供する。
論文参考訳（メタデータ）参考訳（全文） (Wed, 2 Mar 2022 16:34:09 GMT)
- Video Question Answeringのサーベイ。かなり新しい分野だと思っていただが、2016年にデータセットが出されていたことに驚いた。

HighMMT(High-Modality Multimodal Transformer): 多様なモダリティに対する一般化

HighMMT: Towards Modality and Task Generalization for High-Modality Representation Learning [114.2]
マルチタスクと移動学習が可能な汎用マルチモーダルモデルを設計する。得られたモデルは、テキスト、画像、ビデオ、オーディオ、時系列、センサー、テーブルにまたがって一般化され、異なる研究領域から設定される。コードとベンチマークを公開し、その後の理論的および経験的分析のための統一されたプラットフォームを提供したいと思っています。
論文参考訳（メタデータ） (Wed, 2 Mar 2022 18:56:20 GMT)
- 10という多くのモダリティを統一的に（パラメータを共有しながら）扱える手法の提案。
  - 入力は一律で小パッチ（の分散表現）のシーケンスとして扱うとのことでこの方針は汎用的っぽい。
  - 2, 3以上のモダリティが統一的に扱えていくと非常に汎用的なモデルとして使えそうで面白い
- リポジトリはGitHub – pliang279/HighMMT: Towards Modality and Task Generalization for High-Modality Representation Learning

過剰または過小翻訳部分の検出

As Little as Possible, as Much as Necessary: Detecting Over- and Undertranslations with Contrastive Conditioning [42.5]
本稿では,ニューラルマシン翻訳における過剰な単語の検出手法を提案する。我々は,翻訳モデルに基づく全列の確率と,対応するソースやターゲットシーケンスを考慮に入れた部分の確率を比較する。これにより、参照翻訳がなくても、翻訳中の過剰な単語とソース内の未翻訳の単語をピンポイントで特定することができる。
論文参考訳（メタデータ） (Thu, 3 Mar 2022 18:59:02 GMT)
- 翻訳エラーを検出するための手法提案。一部を削除しながら逆翻訳を行うアプローチのよう。
- USEやLaBSEなどマルチリンガルモデルな分散表現を用いるような事もできそうに思った。（対訳ペアを取るには非常に有効だし）

DeepNet: 1000層のTransformer

DeepNet: Scaling Transformers to 1,000 Layers [106.3]
トランスフォーマーの残差接続を修正するための新しい正規化関数(DeepNorm)を導入する。詳細な理論解析により、モデル更新は安定な方法でバウンドできることが示されている。トランスフォーマーを1,000層まで拡張することに成功したが、これは従来のディープトランスフォーマーよりも1桁も深い。
論文参考訳（メタデータ） (Tue, 1 Mar 2022 15:36:38 GMT)
- deepnormを導入することでTransformerを1000層まで深くできるとの報告。機械翻訳において有望な結果。多言語のM2M-100を大きく上回る性能を達成しているように見える。
- リポジトリはGitHub – microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities

医療画像におけるTransformerのサーベイ

Transformers in Medical Image Analysis: A Review [46.7]
本稿では,医療画像解析分野におけるトランスフォーマーの意識と応用を促進するために,位置紙とプライマーの両方を提示する。具体的には、まず、Transformerや他の基本的なコンポーネントに組み込まれたアテンションメカニズムのコア概念について概説する。第2に,医療画像の応用に適したトランスフォーマーアーキテクチャの新しい分類法を提案し,その限界について議論する。
論文参考訳（メタデータ）参考訳（全文） (Thu, 24 Feb 2022 16:04:03 GMT)
- 医療画像解析を対象にしたTransformerベースのモデルのサーベイ。すでに多くの事例があるが、多くの場合他分野のアーキテクチャを医療用に直接応用しており、高度な解析やモデルの問題（parallelization, interpretability, quantiﬁcation and safetyが挙げられている）に焦点を当てたものは少ないとのこと。
  - ドメイン特化型のアーキテクチャは少ない？

月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31