WenLan 2.0: マルチモーダルな巨大事前学習モデル

  • WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.5]
    我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。 そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 27 Oct 2021 12:25:21 GMT)
    • 極めて大規模な画像/テキストの事前学習モデル。CLIPとの比較が興味深く、性能はCLIPを超えるとのこと。
    • 「Overall, we believe that pre-training a large-scale multimodal foundation model is indeed a potential approach to achieving AGI.」や「Overall, these findings indicate that pre-training a multimodal (visual and textual) foundation model can make a giant stride towards AGI.」などAGIを意識した記載が多くこれも面白い。この研究の先にAGIが見えているんだろうか?
      • 個人的には可能性を感じていて興味津々

s2s-ft: 自然言語生成に適した事前学習モデル

  • s2s-ft: Fine-Tuning Pretrained Transformer Encoders for Sequence-to-Sequence Learning [47.3]
    条件付き生成タスクに予めトレーニングされたトランスフォーマーを採用するシーケンス・ツー・シーケンスの微調整ツールキット s2s-ft を提案する。 S2s-ftは抽象的な要約と質問生成のベンチマークで高い性能を達成する。
    論文  参考訳(メタデータ)   (Tue, 26 Oct 2021 12:45:34 GMT)
  • 生成系タスクに適したモデルの提案。同パラメータ数の比較でAbstract Summarization / CNNDMでPEGASUSを超える性能。
  • リポジトリはhttps://github.com/microsoft/unilm/tree/master/s2s-ft

DocTr: 画像の歪み・照明の補正

  • DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction [99.1]
    文書画像の幾何学的および照明歪みに対処する文書画像変換器(DocTr)を提案する。 DocTrは20.02%のキャラクタエラー率(CER)を実現しています。
    論文  参考訳(メタデータ)   (Mon, 25 Oct 2021 13:27:10 GMT)

Multi-document Summarization: サブグラフ選択として解くSgSum、Longformerを用いるPRIMER

  • SgSum: Transforming Multi-document Summarization into Sub-graph Selection [27.4]
    既存の抽出多文書要約(MDS)手法は、各文を個別にスコアし、一つずつ有能な文を抽出して要約を構成する。 サブグラフ選択問題としてMDSタスクを定式化する新しいMDSフレームワーク(SgSum)を提案する。 我々のモデルは従来のMDS法と比較して、より一貫性があり、情報的な要約を生成できる。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 25 Oct 2021 05:12:10 GMT)
    • グラフ構造を通してMulti-documentな要約を行う手法の提案。MultiNewsやDUC2004で優れた結果。
  • PRIMER: Pyramid-based Masked Sentence Pre-training for Multi-document Summarization [16.8]
    要約に着目した多文書表現のための事前学習モデルであるPRIMERを提案する。 具体的には,マルチドキュメント入力に適した適切な入力変換とグローバルアテンションを備えたLongformerアーキテクチャを採用する。 私たちのモデルであるPRIMERは、これらのほとんどの設定において、現在の最先端モデルを大きなマージンで上回る。
    論文  参考訳(メタデータ)  参考訳(全文)  (Sat, 16 Oct 2021 07:22:24 GMT)
    • こちらはグラフ構造ではなくLongformerを用いてマルチドキュメントに対処するアプローチ、MultiNewsなどでSoTA。
    • リポジトリはhttps://github.com/allenai/PRIMER

CoVA(Context-aware Visual Attention): DOMを使わないWEBページからの情報抽出

  • CoVA: Context-aware Visual Attention for Webpage Information Extraction [65.1]
    WIE をコンテキスト対応 Web ページオブジェクト検出タスクとして再構築することを提案する。 我々は、外観特徴とDOMツリーからの構文構造を組み合わせた、コンテキスト認識型視覚意図ベース(CoVA)検出パイプラインを開発した。 提案手法は,従来の最先端手法を改良した新しい挑戦的ベースラインであることを示す。
    論文  参考訳(メタデータ)   (Sun, 24 Oct 2021 00:21:46 GMT)
    • WEBからの情報抽出にDOMを使うのではなくレンダリングされたWEBページにOCRを適用するというアプローチの論文。408サイト、7.7kのページ(のスクリーンショット)にアノテーションを行いモデル構築を実施。データセットも公開されている。
      • 人間的というか力業的というか悩ましいが、性能向上効果があるのであれば汎用的なアプローチであると思う。

PhoMT: ベトナム語-英語のパラレルコーパス

  • PhoMT: A High-Quality and Large-Scale Benchmark Dataset for Vietnamese-English Machine Translation [7.0]
    3.02M文対のベトナム語-英語並列データセットを高品質かつ大規模に導入する。 これはベトナム語と英語の機械翻訳コーパスIWSLT15より2.9M大きい。 自動・人両方の評価において、事前訓練されたシーケンス・ツー・シーケンス・デノナイズ・オートエンコーダmBARTを微調整することにより、最高の性能が得られる。
    論文  参考訳(メタデータ)   (Sat, 23 Oct 2021 11:42:01 GMT)
    • 3Mの対訳ペアからなるベトナム語-英語のパラレルコーパスの提案。Google Translateを用いた対訳ペアアライメントやフィルタリングの方法などが興味深い。mBARTを用いて機械翻訳で優れた性能を出せたとのことだが、Google TranslateやBing Translatorの比較ではドメイン外データの結果が気になるところ。
    • リポジトリはhttps://github.com/VinAIResearch/PhoMTとのことだが、現時点では404

Human-Centered Explainable AI (XAI): 人間中心のXAI

  • Human-Centered Explainable AI (XAI): From Algorithms to User Experiences [29.1]
    説明可能なAI(XAI)は近年,膨大なアルゴリズムコレクションを生み出している。 分野は学際的視点と人間中心のアプローチを受け入れ始めている。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 20 Oct 2021 21:33:46 GMT)
    • XAIでもヒューマン・コンピュータ・インタラクション(HCI)、ユーザ・エクスペリエンス(UX)の設計が重要になっており、techno-centricなアプローチには落とし穴があるとの指摘。現状と限界を知るために良い資料との印象。

AutoMTL: マルチタスク学習のAutoML

  • AutoMTL: A Programming Framework for Automated Multi-Task Learning [23.4]
    マルチタスク学習(MTL)は、一連のタスクを共同で学習する。 MTLの普及を妨げている大きな障壁は、コンパクトなマルチタスクモデルを開発するための体系的なサポートの欠如である。 MTLモデル開発を自動化する最初のプログラミングフレームワークであるAutoMTLを開発した。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 25 Oct 2021 16:13:39 GMT)
    • マルチタスク学習用のAutoMLフレームワーク。3種類のベンチマークで省メモリかつ優れた結果を出したとのこと。
    • リポジトリはhttps://github.com/zhanglijun95/AutoMTL

Anti-Backdoor Learning: バックドア対策の学習手法

  • Anti-Backdoor Learning: Training Clean Models on Poisoned Data [17.6]
    ディープニューラルネットワーク(DNN)に対するセキュリティ上の脅威としてバックドア攻撃が浮上している。1) モデルはクリーンなデータよりもバックドアドデータを学習する。 2) バックドアタスクは特定のクラス(バックドアターゲットクラス)に結び付けられる。 これら2つの弱点に基づきアンチバックドア学習(ABL)を提案する。ABL学習モデルは、純粋にクリーンなデータでトレーニングされたのと同じ性能を実証的に示す。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 25 Oct 2021 03:41:22 GMT)
    • バックドア攻撃の特徴を使った防御法を提案。最先端のバックドア攻撃10件に対して効果的に防御できることを示し、品質が不明瞭なデータを使った学習時に安全性を確保できるとのこと。
      • 攻撃と防御のいたちごっこになる感はあるが、このような研究は重要。
    • リポジトリはhttps://github.com/bboylyg/ABL

多言語教師無しニューラル機械翻訳/mBART-50の効果的な利用

  • Multilingual Unsupervised Neural Machine Translation with Denoising Adapters [77.8]
    単言語データのみを持つ言語を翻訳・翻訳する多言語無教師機械翻訳の問題点を考察する。 この問題に対して、モノリンガルデータを活用するための標準的な手順は、計算コストが高くチューニングが難しいバックトランスレーションである。 本稿では,事前学習したmBART-50上に,デノナイジング対象のアダプタ層であるデノナイジングアダプタを使用することを提案する。
    論文  参考訳(メタデータ)   (Wed, 20 Oct 2021 10:18:29 GMT)
    • mBART-50にアダプタ層を付け加えることによって破壊的な忘却を防止しながら性能の高い機械翻訳モデルを構築可能という報告。教師無し&単言語データを主たる対象にしている。新しい言語でmBARTを拡張できるとか非常に興味深い結果。