コンテンツへスキップ
- Audio Self-supervised Learning: A Survey [60.4]
SSL(Self-Supervised Learning)は、人間のアノテーションを必要とせずに、大規模データから一般的な表現を見つけることを目的としている。 コンピュータビジョンと自然言語処理の分野での成功により、近年では音声処理の分野で採用されている。
論文 参考訳(メタデータ) (Wed, 2 Mar 2022 15:58:29 GMT)- 音声分野でのSelf-supervised Learningをまとめたサーベイ。音声単体だけでなく音声+Visionのようなマルチモーダルな手法もサーベイ対象となっている。
- DiT: Self-supervised Pre-training for Document Image Transformer [85.8]
自己教師付き文書画像変換モデルであるDiTを提案する。 さまざまなビジョンベースのDocument AIタスクでは,バックボーンネットワークとしてDiTを活用しています。 実験結果から, 自己教師付き事前訓練型DiTモデルにより, 新たな最先端結果が得られることが示された。
論文 参考訳(メタデータ) (Fri, 4 Mar 2022 15:34:46 GMT)- Masked Image Modelingな大規模事前学習を行いDocument Image Transformerを構築、document image classification、document layout analysis、 table detectionでSoTAとのこと。OCRの前処理などに重要であり、モデルが公開されているのがありがたい。
- Vision-Language Intelligence: Tasks, Representation Learning, and Large Models [32.1]
本稿では,時間的観点からの視覚言語知能の包括的調査について述べる。 本稿では,この分野での開発を,タスク固有手法,視覚言語事前学習法,大規模弱ラベルデータによって強化された大規模モデルという3つの期間にまとめる。
論文 参考訳(メタデータ) (Thu, 3 Mar 2022 18:54:59 GMT)- Vision-Languageな研究の流れが分かるサーベイ。であると同時に特に最近は月単位で新たな手法が提案されていることが分かる。
- PeerSum: A Peer Review Dataset for Abstractive Multi-document Summarization [37.5]
PeerSumは、科学出版物のピアレビューを用いた新しいMDSデータセットである。 現在のMDSモデルは、PeerSumの高品質な要約を生成するのに苦労しています。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 3 Mar 2022 15:27:02 GMT)- ICLRとNeurIPSのレビューデータをスクレイピング、メタレビュー部分を高品質な抽象型要約用データとして使えるとの指摘。レビュー→メタレビューという問題設定はそもそも実用上重要で面白い。
- NoisyTune: A Little Noise Can Help You Finetune Pretrained Language Models Better [98.6]
訓練済み言語モデル(PLM)の微調整は、下流タスクの成功に不可欠である。 PLMは、事前訓練の信号に過度に適合する危険性があり、下流のタスクと事前訓練のタスクの間にはギャップがある。 NoisyTuneは、微調整前にPLMのパラメータにいくつかのノイズを加えることで、下流タスクにおけるPLMの微調整を支援する。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 24 Feb 2022 11:08:02 GMT)- 事前学習モデルのパラメータにノイズを加えるだけというシンプルな手法でfine tuning後の性能を向上させるという報告。ほんまかいなと思いつつ、一貫して性能が上がっているのが凄い。
- Video Question Answering: Datasets, Algorithms and Challenges [99.9]
Video Question Answering (VideoQA) は、与えられたビデオに応じて自然言語の質問に答えることを目的としている。 本稿では、データセット、アルゴリズム、ユニークな課題に焦点を当てた、ビデオQAの明確な分類と包括的分析を提供する。
論文 参考訳(メタデータ) 参考訳(全文) (Wed, 2 Mar 2022 16:34:09 GMT)- Video Question Answeringのサーベイ。かなり新しい分野だと思っていただが、2016年にデータセットが出されていたことに驚いた。
- HighMMT: Towards Modality and Task Generalization for High-Modality Representation Learning [114.2]
マルチタスクと移動学習が可能な汎用マルチモーダルモデルを設計する。 得られたモデルは、テキスト、画像、ビデオ、オーディオ、時系列、センサー、テーブルにまたがって一般化され、異なる研究領域から設定される。 コードとベンチマークを公開し、その後の理論的および経験的分析のための統一されたプラットフォームを提供したいと思っています。
論文 参考訳(メタデータ) (Wed, 2 Mar 2022 18:56:20 GMT)
- As Little as Possible, as Much as Necessary: Detecting Over- and Undertranslations with Contrastive Conditioning [42.5]
本稿では,ニューラルマシン翻訳における過剰な単語の検出手法を提案する。 我々は,翻訳モデルに基づく全列の確率と,対応するソースやターゲットシーケンスを考慮に入れた部分の確率を比較する。 これにより、参照翻訳がなくても、翻訳中の過剰な単語とソース内の未翻訳の単語をピンポイントで特定することができる。
論文 参考訳(メタデータ) (Thu, 3 Mar 2022 18:59:02 GMT)- 翻訳エラーを検出するための手法提案。一部を削除しながら逆翻訳を行うアプローチのよう。
- USEやLaBSEなどマルチリンガルモデルな分散表現を用いるような事もできそうに思った。(対訳ペアを取るには非常に有効だし)
- DeepNet: Scaling Transformers to 1,000 Layers [106.3]
トランスフォーマーの残差接続を修正するための新しい正規化関数(DeepNorm)を導入する。 詳細な理論解析により、モデル更新は安定な方法でバウンドできることが示されている。 トランスフォーマーを1,000層まで拡張することに成功したが、これは従来のディープトランスフォーマーよりも1桁も深い。
論文 参考訳(メタデータ) (Tue, 1 Mar 2022 15:36:38 GMT)
- Transformers in Medical Image Analysis: A Review [46.7]
本稿では,医療画像解析分野におけるトランスフォーマーの意識と応用を促進するために,位置紙とプライマーの両方を提示する。 具体的には、まず、Transformerや他の基本的なコンポーネントに組み込まれたアテンションメカニズムのコア概念について概説する。 第2に,医療画像の応用に適したトランスフォーマーアーキテクチャの新しい分類法を提案し,その限界について議論する。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 24 Feb 2022 16:04:03 GMT)- 医療画像解析を対象にしたTransformerベースのモデルのサーベイ。すでに多くの事例があるが、多くの場合他分野のアーキテクチャを医療用に直接応用しており、高度な解析やモデルの問題(parallelization, interpretability, quantification and safetyが挙げられている)に焦点を当てたものは少ないとのこと。