2022年3月7日 – arXiv最新論文の紹介

NoisyTune: PLMのfinetuneをよくするノイズ付与

NoisyTune: A Little Noise Can Help You Finetune Pretrained Language Models Better [98.6]
訓練済み言語モデル(PLM)の微調整は、下流タスクの成功に不可欠である。 PLMは、事前訓練の信号に過度に適合する危険性があり、下流のタスクと事前訓練のタスクの間にはギャップがある。 NoisyTuneは、微調整前にPLMのパラメータにいくつかのノイズを加えることで、下流タスクにおけるPLMの微調整を支援する。
論文参考訳（メタデータ）参考訳（全文） (Thu, 24 Feb 2022 11:08:02 GMT)
- 事前学習モデルのパラメータにノイズを加えるだけというシンプルな手法でfine tuning後の性能を向上させるという報告。ほんまかいなと思いつつ、一貫して性能が上がっているのが凄い。

Video Question Answering: Datasets, Algorithms and Challenges [99.9]
Video Question Answering (VideoQA) は、与えられたビデオに応じて自然言語の質問に答えることを目的としている。本稿では、データセット、アルゴリズム、ユニークな課題に焦点を当てた、ビデオQAの明確な分類と包括的分析を提供する。
論文参考訳（メタデータ）参考訳（全文） (Wed, 2 Mar 2022 16:34:09 GMT)
- Video Question Answeringのサーベイ。かなり新しい分野だと思っていただが、2016年にデータセットが出されていたことに驚いた。

HighMMT: Towards Modality and Task Generalization for High-Modality Representation Learning [114.2]
マルチタスクと移動学習が可能な汎用マルチモーダルモデルを設計する。得られたモデルは、テキスト、画像、ビデオ、オーディオ、時系列、センサー、テーブルにまたがって一般化され、異なる研究領域から設定される。コードとベンチマークを公開し、その後の理論的および経験的分析のための統一されたプラットフォームを提供したいと思っています。
論文参考訳（メタデータ） (Wed, 2 Mar 2022 18:56:20 GMT)
- 10という多くのモダリティを統一的に（パラメータを共有しながら）扱える手法の提案。
  - 入力は一律で小パッチ（の分散表現）のシーケンスとして扱うとのことでこの方針は汎用的っぽい。
  - 2, 3以上のモダリティが統一的に扱えていくと非常に汎用的なモデルとして使えそうで面白い
- リポジトリはGitHub – pliang279/HighMMT: Towards Modality and Task Generalization for High-Modality Representation Learning

As Little as Possible, as Much as Necessary: Detecting Over- and Undertranslations with Contrastive Conditioning [42.5]
本稿では,ニューラルマシン翻訳における過剰な単語の検出手法を提案する。我々は,翻訳モデルに基づく全列の確率と,対応するソースやターゲットシーケンスを考慮に入れた部分の確率を比較する。これにより、参照翻訳がなくても、翻訳中の過剰な単語とソース内の未翻訳の単語をピンポイントで特定することができる。
論文参考訳（メタデータ） (Thu, 3 Mar 2022 18:59:02 GMT)
- 翻訳エラーを検出するための手法提案。一部を削除しながら逆翻訳を行うアプローチのよう。
- USEやLaBSEなどマルチリンガルモデルな分散表現を用いるような事もできそうに思った。（対訳ペアを取るには非常に有効だし）