2021年9月21日 – arXiv最新論文の紹介

Primer(PRIMitives searched transformER): 言語モデルのための効率的なアーキテクチャ

Primer: Searching for Efficient Transformers for Language Modeling [79.3]
大型トランスフォーマーモデルのトレーニングと推論コストは急速に増加し、高価になっている。ここでは、より効率的な変種を探すことにより、トランスフォーマーのコストを削減することを目的とする。私たちは、オリジナルのTransformerよりもトレーニングコストの少ないPrimerというアーキテクチャを特定します。
論文参考訳（メタデータ） (Fri, 17 Sep 2021 17:50:39 GMT)
- Transformerの構造に手を入れ効率の高いアーキテクチャを進化的な手法で探索。500MパラメータのT5相当の実装で4.2倍の学習コスト削減を達成するPrimerというアーキテクチャを見つけたとの報告。主要な変更点は「Squared ReLU」と「MDHA: Multi-DConv-Head Attention （深さ方向のconvolution layerをQ, K, V projectionの後に配置）」。Primerはこの2点以外にも様々な修正が加えられているが、この変更のみを行ったバージョン（Primer-EZ）でも高い効果があるとのこと。著者はまずPrimer-EZで高速化効果を試し必要に応じて完全なPrimerを導入することを推奨している。
- リポジトリはhttps://github.com/google-research/google-research/tree/master/primer

Explainability Requires Interactivity [13.4]
現代視覚モデルの高度に複雑な決定境界を理解するためのインタラクティブなフレームワークを導入する。ユーザーはネットワークの決定を徹底的に検査し、調査し、テストすることができる。
論文参考訳（メタデータ） (Thu, 16 Sep 2021 11:02:25 GMT)
- 複雑なモデルに対して一見単純な「説明」を出すことは危険であり、インタラクティブなやり取りが必要であるとの論文。画像に対して重要個所のヒートマップを出すのではなく、入力画像をスタイル変換していくつかの画像を生成、その予測値を例示して判断を即すアプローチ。笑顔推定であれば「入力画像とほぼ同じだが肌や髪の色が異なる画像」のスコアが著しく低くなっていれば怪しいと感じることができる。
- ヒートマップによる「説明」はそれっぽいが誤解しやすいのは確か。Talk-to-Editと組み合わせると面白いだろうなーと思う。

Does Summary Evaluation Survive Translation to Other Languages? [0.0]
既存の英語要約データセット SummEval を4言語に翻訳する。本研究は,翻訳言語における自動評価指標のスコアと,ソース言語における人間のアノテーションとの相関から分析する。
論文参考訳（メタデータ） (Thu, 16 Sep 2021 17:35:01 GMT)
- SummEvalをHelsinki-NLPで翻訳したデータを評価、各種メトリクスは変動するものの順位が変動するほどのものではなく、英語のアノテーションを機械翻訳したデータでも使えるのでは？という結論。