Out-of-Distribution検出のサーベイ

  • Generalized Out-of-Distribution Detection: A Survey [25.8]
    アウト・オブ・ディストリビューション(OOD)検出は、機械学習システムの信頼性と安全性を確保するために重要である。 まず,先述した5つの問題を含む一般OOD検出という汎用フレームワークを提案する。 私たちのフレームワークでは、これらの5つの問題を特別なケースやサブタスクと見なすことができ、区別しやすくなります。
    論文  参考訳(メタデータ)   (Thu, 21 Oct 2021 17:59:41 GMT)
    • Out-of-Distribution検出は実用上重要だがanomaly detection (AD), novelty detection (ND), open set recognition (OSR), outlier detection (OD),これらを含む一般的なOD検出など様々なタスクがある。OOD検出の情報を整理するのに非常に良い資料。本文は14ページとコンパクトだが、引用数315と広範囲。

NLPの深層学習モデルに対する解釈のサーベイ

  • Interpreting Deep Learning Models in Natural Language Processing: A Review [33.8]
    ニューラルネットワークモデルに対する長年にわたる批判は、解釈可能性の欠如である。 本研究では,NLPにおけるニューラルモデルに対する様々な解釈手法について概説する。
    論文  参考訳(メタデータ)   (Wed, 20 Oct 2021 10:17:04 GMT)
    • 自然言語処理のモデルに対する説明方法のサーベイ。「Training-based: 予測時に影響が強い学習インスタンスの識別」「Test-based: テストデータのどこが予測値に影響を与えているか識別」や「joint: 学習時に解釈性を両立させる」「post-hoc:学習したモデルに対して別途解釈性を付与する 」といった観点で説明手法を分類しており分かりやすい。
    • 「Is attention interpretable?」という問いと不明瞭であるという記載は同感で、私個人としてはAttentionをもってinterpretableと呼ぶには違和感がある。解釈性の文脈でAttentionの有用性に対する反論、それに対する再反論などのやり取りは非常に参考になる。

ソースコード分析への機械学習活用のサーベイ

  • A Survey on Machine Learning Techniques for Source Code Analysis [14.1]
    ソースコード解析に応用された機械学習の領域における現在の知識を要約することを目的としている。 そこで本研究では,2002年から2021年にかけて,広範囲にわたる文献検索を行い,研究364点を同定した。
    論文  参考訳(メタデータ)   (Mon, 18 Oct 2021 20:13:38 GMT)
    • 本文39ページ、引用数369と大規模なサーベイ。
    • ソフトウェアテスト、ソースコード表現、ソースコードの品質分析、プログラム合成、コード補完、リファクタリング、コード要約、脆弱性解析などソースコード分析における機械学習の利用とそのアプローチが把握できる。

Fact Checkingのサーベイ

  • Automated Fact-Checking: A Survey [5.7]
    自然言語処理(NLP)の分野の研究者は、ファクトチェックデータセットを構築することで、このタスクに貢献している。 本稿では,クレーム検出とクレーム検証の両方を対象とする自動ファクトチェックについて検討する。
    論文  参考訳(メタデータ)   (Thu, 23 Sep 2021 15:13:48 GMT)
    • 以前紹介したものとは別チームによるFact-Checkingのサーベイ。データセットの名前が異なったりしていて興味深い(?)

Transformerによる映像-言語の事前学習モデルのサーベイ

  • Survey: Transformer based Video-Language Pre-training [28.9]
    本調査は,ビデオ言語学習のためのトランスフォーマーに基づく事前学習手法を概観することを目的としている。 まず、注意機構、位置符号化などを含む背景知識を紹介する。 シングルストリームとマルチストリーム構造に分類し、イノベーションを強調し、パフォーマンスを比較する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 21 Sep 2021 02:36:06 GMT)
    • 映像と言語を扱うTransformerの事前学習に関するサーベイ。モデルだけではなくデータセットも整理されている。16ページと短めだがとても参考になる。CC BYと翻訳可能なライセンスであることもありがたい。(注:残念ながらFuguMTが綺麗に訳せている事は意味しない)

Survey of Low-Resource Machine Translation: データが少ない言語の機械翻訳

  • Survey of Low-Resource Machine Translation [65.5]
    現在、世界中で約7000の言語が話されており、ほとんど全ての言語ペアは機械翻訳モデルのトレーニングのための重要なリソースを欠いている。 翻訳データが少ない場合に有用な翻訳モデルを作成するという課題に対処する研究への関心が高まっている。
    論文  参考訳(メタデータ)   (Wed, 1 Sep 2021 16:57:58 GMT)
    • (特に)低リソースの言語に対して機械翻訳モデルの状況を調査したサーベイ。主にパラレルコーパスのデータソース(収集・作成)、モノリンガルデータの活用、マルチリンガルデータ・モデルの活用、タグ付けや構文解析など機械翻訳以外の言語リソース活用、モデル構築・推論の改善、高度化など幅広い内容が扱われている。日英翻訳はリソースが多い言語ペアであると思うが、参考になる情報は多い。

Out-of-Distribution に関するサーベイ

  • Towards Out-Of-Distribution Generalization: A Survey [30.7]
    古典的な機械学習手法は、トレーニングデータとテストデータが独立して同じ分散であるというi.i.d.の仮定に基づいて構築されている。 実際のシナリオでは、i.i.d.の仮定はほとんど満たされず、分散シフトの下で古典的な機械学習アルゴリズムのパフォーマンスが急落する。 本論文は,OOD一般化問題を体系的かつ包括的に議論する最初の試みである。
    論文  参考訳(メタデータ)   (Tue, 31 Aug 2021 05:28:42 GMT)
    • 機械学習の社会実装で避けては通れない Out-Of-Distribution問題のサーベイ。問題の定義、対応手法(およびその関係性)、データセット、評価指標にわたる広範な内容だが16ページとコンパクト。研究概要を知るために良い内容だと思う。

自動Fact-Checkingのサーベイ

  • A Survey on Automated Fact-Checking [18.3]
    本稿では,自然言語処理によるファクトチェックの自動化について検討し,関連する課題や規律との関係について考察する。 既存のデータセットとモデルを概観し、与えられた様々な定義を統一し、共通の概念を識別することを目的としている。
    論文  参考訳(メタデータ)   (Thu, 26 Aug 2021 16:34:51 GMT)
    • ファクトチェックに関する要素を分析、関連するデータセットを一覧化、モデル構築のアプローチを整理している。この分野の歴史を振り返るうえで優れた資料。Research Challenges のところは自然言語処理一般に言える難しさも多い。
    • 本文は12ページとサーベイにしては短め。

NLPにおける説明手法のサーベイ

  • Post-hoc Interpretability for Neural NLP: A Survey [11.8]
    本稿では,解釈可能性法がどのように説明を伝達するかを分類する。 この調査は、モデル学習後に説明を提供するポストホック手法に焦点を当てている。 このクラスのメソッドに共通する関心事は、モデルが正確に反映されているかどうかである。
    論文  参考訳(メタデータ)   (Tue, 10 Aug 2021 18:00:14 GMT)
    • 自然言語処理を対象にした説明性、解釈性を実現する手法のサーベイ。モチベーション、評価方法、手法の概要説明と非常に多くの手法を紹介している。この分野を振り返るうえで貴重な資料。

T-PTLM(Transformer-based Pretrained Language Models)のサーベイ

  • AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing [0.0]
    トランスフォーマーベースの事前訓練言語モデル(T-PTLM)は、ほぼすべてのNLPタスクで大きな成功を収めている。 変換されたPTLMは、自己教師付き学習を用いて大量のテキストデータから普遍的な言語表現を学習する。 これらのモデルは、下流モデルのスクラッチからのトレーニングを避けるために、下流タスクに適切なバックグラウンド知識を提供する。
    論文  参考訳(メタデータ)   (Thu, 12 Aug 2021 05:32:18 GMT)
    • 最近よく見るTransformerを用いた大規模事前学習モデルのサーベイ。42ページ、引用数304でこの分野を広範に調査、整理している。