2021年9月 – ページ 2 – arXiv最新論文の紹介

TranslateLocally: CPUで動作する高速な機械翻訳

TranslateLocally: Blazing-fast translation running on the local CPU [11.0]
translateLocallyは10年前のハードウェアでもクラウドのような翻訳速度と品質を提供する。オープンソースソフトウェアはMarianをベースにしており、Linux、Windows、CPUで動作する。
論文参考訳（メタデータ） (Tue, 21 Sep 2021 14:20:39 GMT)
- Marian-NMTをベースにしたCPUで高速に動作可能な機械翻訳ソフトウェアの紹介。現状日本語は対応していなさそうなのでFuguMTで集めたコーパス使って参加してみようかと思わなくもない。
- プロジェクトサイトはhttps://translatelocally.com/リポジトリはhttps://github.com/XapaJIaMnu/translateLocally
- 同サイトでhttps://github.com/browsermt/bergamot-translatorも紹介されていてMARIANベース、wasmで動作可能な実装もあるらしい。

GPT-3＋人間のフィードバックを用いた再帰的な要約モデル

Recursively Summarizing Books with Human Feedback [10.1]
本論では,小説全体の抽象的要約の課題について述べる。タスクの小さな部分でトレーニングされたモデルを使用して、より広範なタスクに対するフィードバックの提供を支援します。書籍長要約のための最近のBookSumデータセットについて,最先端の成果を得た。
論文参考訳（メタデータ） (Wed, 22 Sep 2021 17:34:18 GMT)
- 本のセクションを要約、それらをさらに要約して本全体の要約を作成する方針の研究。それ自体はシンプルなアプローチだが、GPT-3（family）の使用、人間のラベラーのフィードバックを強化学習に利用など詳細な手法が興味深い。
- 「We chose narrative fiction books due to our belief that they were the most difficult to summarize, which is supported by our later qualitative findings (Appendix J).」というのも面白い。ELYZA digestとかでも難しいとされていた気がする。

ゼロショットでのドキュメントレベルニューラル機械翻訳能力の転送

Multilingual Document-Level Translation Enables Zero-Shot Transfer From Sentences to Documents [19.6]
ドキュメントレベルのニューラルマシン翻訳(DocNMT)は、クロスセンスコンテキストを取り入れたコヒーレントな翻訳を提供する。本研究では,DocNMTにおける文脈モデリングが,ゼロショット方式で文から文書への変換可能かどうかについて検討する。
論文参考訳（メタデータ） (Tue, 21 Sep 2021 17:49:34 GMT)
- Document-level Neural Machine Translationの実現には（文ではなく）文書のパラレルコーパスが不足しているという問題がある。文書レベルのコーパスが充実している言語のDocNMTとSenNMT（文レベルのニューラル機械翻訳）、文書レベルのコーパスが不足している言語のSenNMTを組み合わせて、文書レベルのコーパスが不足している言語のDocNMTが作成可能とした報告。
  - Docレベルの評価ではBLEUがうまく機能しないことを含めて面白い結果。

Transformerによる映像-言語の事前学習モデルのサーベイ

Survey: Transformer based Video-Language Pre-training [28.9]
本調査は,ビデオ言語学習のためのトランスフォーマーに基づく事前学習手法を概観することを目的としている。まず、注意機構、位置符号化などを含む背景知識を紹介する。シングルストリームとマルチストリーム構造に分類し、イノベーションを強調し、パフォーマンスを比較する。
論文参考訳（メタデータ）参考訳（全文） (Tue, 21 Sep 2021 02:36:06 GMT)
- 映像と言語を扱うTransformerの事前学習に関するサーベイ。モデルだけではなくデータセットも整理されている。16ページと短めだがとても参考になる。CC BYと翻訳可能なライセンスであることもありがたい。（注：残念ながらFuguMTが綺麗に訳せている事は意味しない）

TrOCR: TransformerによるOCR

TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models [47.5]
本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。 TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
論文参考訳（メタデータ） (Tue, 21 Sep 2021 16:01:56 GMT)
- CNN＋RNNで構成されることの多いOCRをTransformerを用いて改善。事前学習済み画像用Transfomerと事前学習済みテキスト用Transformerの構成。後処理なしでsotaを達成とのこと。
  - SROIE task2ではsotaではなさそうだが相当高精度であることは確か。
- リポジトリはhttps://github.com/microsoft/unilm/tree/master/trocrとのことだが現時点ではまだアップロードされていない。

UDG(Unsupervised Data Generation )によるゼロラベル学習

Towards Zero-Label Language Learning [20.3]
本稿では自然言語処理(NLP)におけるゼロラベル学習について検討する。トレーニング中、どこにでも人間の注釈付きデータを使用しず、モデルが純粋に合成データに基づいて訓練される。 GPT-3における数発の推論の成功に触発されて、教師なしデータ生成というトレーニングデータ生成手順を提案する。
論文参考訳（メタデータ） (Sun, 19 Sep 2021 19:00:07 GMT)
- 事前学習された言語モデル（GLM: Gigantic Language Model）で合成データを作成、それをもとにして学習する手法の提案。ラベル付きデータとの組み合わせによってSuperGLUEで優れた性能（現時点で2位）が達成できている。
  - 「リアルなデータではラベルが入力相当データの後に来るとは限らない、プロンプトは最適ではない」にそうだよなーと思った。
- アプローチとしてはSTraTAに近いように思う。巨大言語モデルから必要なデータを引き出そうとしているように見え面白い。

医療画像のAI開発における指針

FUTURE-AI: Guiding Principles and Consensus Recommendations for Trustworthy Artificial Intelligence in Future Medical Imaging [0.3]
現在、医療画像における将来のAI開発を導くための具体的なガイドラインやベストプラクティスは存在しない。本稿では、ヘルスイメージングにおけるAIに関する5つの大きなヨーロッパプロジェクトから、蓄積された経験、コンセンサス、ベストプラクティスから引き出されたガイド原則を慎重に選択する。これらの指針はFUTURE-AIと呼ばれ、その構成要素は(i)公正性、(ii)普遍性、(iii)トレーサビリティ、(iv)ユーザビリティ、(v)ロバスト性、(vi)説明性からなる。
論文参考訳（メタデータ） (Mon, 20 Sep 2021 16:22:49 GMT)
- 5つの医療画像関係のAI開発プロジェクトの経験からベストプラクティスを設定、FUTUREという指針をまとめている。F: Fairness, U:Universality, T:Traceability, U:Usability, R:Robustness , E:Explainabilityに対応。
- 46ページと長めだが非常に良い内容。AI一般の開発ガイドラインとしても参考になる。

Primer(PRIMitives searched transformER): 言語モデルのための効率的なアーキテクチャ

Primer: Searching for Efficient Transformers for Language Modeling [79.3]
大型トランスフォーマーモデルのトレーニングと推論コストは急速に増加し、高価になっている。ここでは、より効率的な変種を探すことにより、トランスフォーマーのコストを削減することを目的とする。私たちは、オリジナルのTransformerよりもトレーニングコストの少ないPrimerというアーキテクチャを特定します。
論文参考訳（メタデータ） (Fri, 17 Sep 2021 17:50:39 GMT)
- Transformerの構造に手を入れ効率の高いアーキテクチャを進化的な手法で探索。500MパラメータのT5相当の実装で4.2倍の学習コスト削減を達成するPrimerというアーキテクチャを見つけたとの報告。主要な変更点は「Squared ReLU」と「MDHA: Multi-DConv-Head Attention （深さ方向のconvolution layerをQ, K, V projectionの後に配置）」。Primerはこの2点以外にも様々な修正が加えられているが、この変更のみを行ったバージョン（Primer-EZ）でも高い効果があるとのこと。著者はまずPrimer-EZで高速化効果を試し必要に応じて完全なPrimerを導入することを推奨している。
- リポジトリはhttps://github.com/google-research/google-research/tree/master/primer

Deep Learning モデルの説明にはインタラクティブ性が必要

Explainability Requires Interactivity [13.4]
現代視覚モデルの高度に複雑な決定境界を理解するためのインタラクティブなフレームワークを導入する。ユーザーはネットワークの決定を徹底的に検査し、調査し、テストすることができる。
論文参考訳（メタデータ） (Thu, 16 Sep 2021 11:02:25 GMT)
- 複雑なモデルに対して一見単純な「説明」を出すことは危険であり、インタラクティブなやり取りが必要であるとの論文。画像に対して重要個所のヒートマップを出すのではなく、入力画像をスタイル変換していくつかの画像を生成、その予測値を例示して判断を即すアプローチ。笑顔推定であれば「入力画像とほぼ同じだが肌や髪の色が異なる画像」のスコアが著しく低くなっていれば怪しいと感じることができる。
- ヒートマップによる「説明」はそれっぽいが誤解しやすいのは確か。Talk-to-Editと組み合わせると面白いだろうなーと思う。

翻訳した要約データは使えるか？

Does Summary Evaluation Survive Translation to Other Languages? [0.0]
既存の英語要約データセット SummEval を4言語に翻訳する。本研究は,翻訳言語における自動評価指標のスコアと,ソース言語における人間のアノテーションとの相関から分析する。
論文参考訳（メタデータ） (Thu, 16 Sep 2021 17:35:01 GMT)
- SummEvalをHelsinki-NLPで翻訳したデータを評価、各種メトリクスは変動するものの順位が変動するほどのものではなく、英語のアノテーションを機械翻訳したデータでも使えるのでは？という結論。

2021年9月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30