2022年4月5日 – arXiv最新論文の紹介

Test-time Adaptation for Automatic Speech Recognition

Listen, Adapt, Better WER: Source-free Single-utterance Test-time Adaptation for Automatic Speech Recognition [65.8]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文参考訳（メタデータ） (Sun, 27 Mar 2022 06:38:39 GMT)
- ASRの共変量シフトに対してTest-Time Adaptation を適用した報告。1回の発話に対してadaptationを行っているのが興味深い
- リポジトリはGitHub – DanielLin94144/Test-time-adaptation-ASR-SUTA

マルチモーダル& Graph Attentionによる文書理解

Multimodal Pre-training Based on Graph Attention Network for Document Understanding [32.6]
GraphDocは、さまざまなドキュメント理解タスクのためのグラフベースのモデルである。テキスト、レイアウト、画像情報を同時に活用することにより、マルチモーダルフレームワークで事前訓練される。 320万の未ラベル文書から一般的な表現を学習する。
論文参考訳（メタデータ）参考訳（全文） (Fri, 25 Mar 2022 09:27:50 GMT)
- ドキュメントレイアウトの認識でテキスト・画像・レイアウトなどマルチモーダルなデータを利用、UniDocやSelf-Doc以上の性能を達成とのこと。