2022年9月26日 – arXiv最新論文の紹介

Mega: Moving Average Equipped Gated AttentionとBART-LS

Mega: Moving Average Equipped Gated Attention [150.3]
メガ (Mega) は、(予備的な)移動平均を備えた単純で理論上は接地された単頭誘導式アテンション機構である。我々はMegaがトランスフォーマーの変種や最近の状態空間モデルを含む他のシーケンスモデルよりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (Wed, 21 Sep 2022 20:52:17 GMT)
- Transformerを用いたNLPが流行しているが、長文対応は依然として大きな課題。アテンションに移動平均を適用して優れた性能を達成という報告。
- シンプルな構造だが結果は強力とのこと。なんかLSTMっぽい。

Adapting Pretrained Text-to-Text Models for Long Text Sequences [39.6]
我々は、時系列入力に既存の事前訓練されたテキスト・ツー・テキスト・モデルを適用する。長文QAタスク上での競合性能を実現するための長文モデルを構築した。
論文参考訳（メタデータ） (Wed, 21 Sep 2022 00:41:07 GMT)
- 同日に出ていた長文対応の論文。こちらでは様々な手法を比較したうえで「アテンションをpooling-augmented blockwise attentionに置き換え」「長短スパンを混合したT5 スタイルのdenoising loss」「C4をランダムに連結した長文の事前学習データ」を取り入れている。
- リポジトリはhttps://github.com/facebookresearch/bart_lsとのことだが、現時点では404

Summarization Programs: 解釈可能な要約

Summarization Programs: Interpretable Abstractive Summarization with Neural Modular Trees [89.6]
現在の抽象的要約モデルは明確な解釈可能性の欠如に悩まされるか、あるいは不完全理性を与える。本稿では,バイナリツリーの(順序付き)リストからなる解釈可能なモジュラーフレームワークであるSummarization Program (SP)を提案する。要約プログラムは、要約文毎に1つのルートノードを含み、各要約文と文書文を個別のツリーで接続する。
論文参考訳（メタデータ） (Wed, 21 Sep 2022 16:50:22 GMT)
- 解釈可能な抽象型要約手法の提案。文を短くする過程（操作）を木構造で追うことが可能。現時点では十分な性能を出せていないように見えるが改善可能性が示されている。
- リポジトリはswarnaHub/SummarizationPrograms: PyTorch code of Summarization Programs: Interpretable Abstractive Summarization with Neural Modular Trees (github.com)

Whisper：OpenAIの高性能ASR

Introducing Whisper (openai.com)
Robust Speech Recognition via Large-Scale Weak Supervision
- 我々は,インターネット上の大量の音声の書き起こしのため音声処理システムの能力について検討する。マルチリンガルとマルチタスクの監視を680,000時間にスケールすると、結果は標準ベンチマークに適合する。我々は、堅牢な音声処理のさらなる作業の基盤となるモデルと推論コードをリリースしている。
- コードはopenai/whisper (github.com)

OpenAIの音声認識システム。極めて大規模なデータ（全680,000時間、438,000時間は音声とトランスクリプトが両方英語、126,000 時間は音声が英語以外、117,000時間は音声・トランスクリプトともに英語以外。全98言語を使用。）が用いられており高性能。日本語の認識能力も高くコードやモデルが公開されているのも凄い。

多言語→英語への翻訳機能もあり相応の性能、Textless NLPの可能性を感じる

月	火	水	木	金	土	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30