コンテンツへスキップ
- DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction [99.1]
文書画像の幾何学的および照明歪みに対処する文書画像変換器(DocTr)を提案する。 DocTrは20.02%のキャラクタエラー率(CER)を実現しています。
論文 参考訳(メタデータ) (Mon, 25 Oct 2021 13:27:10 GMT)
- SgSum: Transforming Multi-document Summarization into Sub-graph Selection [27.4]
既存の抽出多文書要約(MDS)手法は、各文を個別にスコアし、一つずつ有能な文を抽出して要約を構成する。 サブグラフ選択問題としてMDSタスクを定式化する新しいMDSフレームワーク(SgSum)を提案する。 我々のモデルは従来のMDS法と比較して、より一貫性があり、情報的な要約を生成できる。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 25 Oct 2021 05:12:10 GMT)- グラフ構造を通してMulti-documentな要約を行う手法の提案。MultiNewsやDUC2004で優れた結果。
- PRIMER: Pyramid-based Masked Sentence Pre-training for Multi-document Summarization [16.8]
要約に着目した多文書表現のための事前学習モデルであるPRIMERを提案する。 具体的には,マルチドキュメント入力に適した適切な入力変換とグローバルアテンションを備えたLongformerアーキテクチャを採用する。 私たちのモデルであるPRIMERは、これらのほとんどの設定において、現在の最先端モデルを大きなマージンで上回る。
論文 参考訳(メタデータ) 参考訳(全文) (Sat, 16 Oct 2021 07:22:24 GMT)
- CoVA: Context-aware Visual Attention for Webpage Information Extraction [65.1]
WIE をコンテキスト対応 Web ページオブジェクト検出タスクとして再構築することを提案する。 我々は、外観特徴とDOMツリーからの構文構造を組み合わせた、コンテキスト認識型視覚意図ベース(CoVA)検出パイプラインを開発した。 提案手法は,従来の最先端手法を改良した新しい挑戦的ベースラインであることを示す。
論文 参考訳(メタデータ) (Sun, 24 Oct 2021 00:21:46 GMT)- WEBからの情報抽出にDOMを使うのではなくレンダリングされたWEBページにOCRを適用するというアプローチの論文。408サイト、7.7kのページ(のスクリーンショット)にアノテーションを行いモデル構築を実施。データセットも公開されている。
- 人間的というか力業的というか悩ましいが、性能向上効果があるのであれば汎用的なアプローチであると思う。
- PhoMT: A High-Quality and Large-Scale Benchmark Dataset for Vietnamese-English Machine Translation [7.0]
3.02M文対のベトナム語-英語並列データセットを高品質かつ大規模に導入する。 これはベトナム語と英語の機械翻訳コーパスIWSLT15より2.9M大きい。 自動・人両方の評価において、事前訓練されたシーケンス・ツー・シーケンス・デノナイズ・オートエンコーダmBARTを微調整することにより、最高の性能が得られる。
論文 参考訳(メタデータ) (Sat, 23 Oct 2021 11:42:01 GMT)- 3Mの対訳ペアからなるベトナム語-英語のパラレルコーパスの提案。Google Translateを用いた対訳ペアアライメントやフィルタリングの方法などが興味深い。mBARTを用いて機械翻訳で優れた性能を出せたとのことだが、Google TranslateやBing Translatorの比較ではドメイン外データの結果が気になるところ。
- リポジトリはhttps://github.com/VinAIResearch/PhoMTとのことだが、現時点では404
- Human-Centered Explainable AI (XAI): From Algorithms to User Experiences [29.1]
説明可能なAI(XAI)は近年,膨大なアルゴリズムコレクションを生み出している。 分野は学際的視点と人間中心のアプローチを受け入れ始めている。
論文 参考訳(メタデータ) 参考訳(全文) (Wed, 20 Oct 2021 21:33:46 GMT)- XAIでもヒューマン・コンピュータ・インタラクション(HCI)、ユーザ・エクスペリエンス(UX)の設計が重要になっており、techno-centricなアプローチには落とし穴があるとの指摘。現状と限界を知るために良い資料との印象。
- AutoMTL: A Programming Framework for Automated Multi-Task Learning [23.4]
マルチタスク学習(MTL)は、一連のタスクを共同で学習する。 MTLの普及を妨げている大きな障壁は、コンパクトなマルチタスクモデルを開発するための体系的なサポートの欠如である。 MTLモデル開発を自動化する最初のプログラミングフレームワークであるAutoMTLを開発した。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 25 Oct 2021 16:13:39 GMT)
- Anti-Backdoor Learning: Training Clean Models on Poisoned Data [17.6]
ディープニューラルネットワーク(DNN)に対するセキュリティ上の脅威としてバックドア攻撃が浮上している。1) モデルはクリーンなデータよりもバックドアドデータを学習する。 2) バックドアタスクは特定のクラス(バックドアターゲットクラス)に結び付けられる。 これら2つの弱点に基づきアンチバックドア学習(ABL)を提案する。ABL学習モデルは、純粋にクリーンなデータでトレーニングされたのと同じ性能を実証的に示す。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 25 Oct 2021 03:41:22 GMT)- バックドア攻撃の特徴を使った防御法を提案。最先端のバックドア攻撃10件に対して効果的に防御できることを示し、品質が不明瞭なデータを使った学習時に安全性を確保できるとのこと。
- 攻撃と防御のいたちごっこになる感はあるが、このような研究は重要。
- リポジトリはhttps://github.com/bboylyg/ABL
- Multilingual Unsupervised Neural Machine Translation with Denoising Adapters [77.8]
単言語データのみを持つ言語を翻訳・翻訳する多言語無教師機械翻訳の問題点を考察する。 この問題に対して、モノリンガルデータを活用するための標準的な手順は、計算コストが高くチューニングが難しいバックトランスレーションである。 本稿では,事前学習したmBART-50上に,デノナイジング対象のアダプタ層であるデノナイジングアダプタを使用することを提案する。
論文 参考訳(メタデータ) (Wed, 20 Oct 2021 10:18:29 GMT)- mBART-50にアダプタ層を付け加えることによって破壊的な忘却を防止しながら性能の高い機械翻訳モデルを構築可能という報告。教師無し&単言語データを主たる対象にしている。新しい言語でmBARTを拡張できるとか非常に興味深い結果。
- Generalized Out-of-Distribution Detection: A Survey [25.8]
アウト・オブ・ディストリビューション(OOD)検出は、機械学習システムの信頼性と安全性を確保するために重要である。 まず,先述した5つの問題を含む一般OOD検出という汎用フレームワークを提案する。 私たちのフレームワークでは、これらの5つの問題を特別なケースやサブタスクと見なすことができ、区別しやすくなります。
論文 参考訳(メタデータ) (Thu, 21 Oct 2021 17:59:41 GMT)- Out-of-Distribution検出は実用上重要だがanomaly detection (AD), novelty detection (ND), open set recognition (OSR), outlier detection (OD),これらを含む一般的なOD検出など様々なタスクがある。OOD検出の情報を整理するのに非常に良い資料。本文は14ページとコンパクトだが、引用数315と広範囲。
- Interpreting Deep Learning Models in Natural Language Processing: A Review [33.8]
ニューラルネットワークモデルに対する長年にわたる批判は、解釈可能性の欠如である。 本研究では,NLPにおけるニューラルモデルに対する様々な解釈手法について概説する。
論文 参考訳(メタデータ) (Wed, 20 Oct 2021 10:17:04 GMT)- 自然言語処理のモデルに対する説明方法のサーベイ。「Training-based: 予測時に影響が強い学習インスタンスの識別」「Test-based: テストデータのどこが予測値に影響を与えているか識別」や「joint: 学習時に解釈性を両立させる」「post-hoc:学習したモデルに対して別途解釈性を付与する 」といった観点で説明手法を分類しており分かりやすい。
- 「Is attention interpretable?」という問いと不明瞭であるという記載は同感で、私個人としてはAttentionをもってinterpretableと呼ぶには違和感がある。解釈性の文脈でAttentionの有用性に対する反論、それに対する再反論などのやり取りは非常に参考になる。