Beyond neural scaling laws

  • Beyond neural scaling laws: beating power law scaling via data pruning [37.8]広範囲に観察されたニューラルネットワークのスケーリング法則では、トレーニングセットのサイズやモデルサイズに応じてディープラーニングのパフォーマンスが大幅に向上している。しかし、スケーリングによるこれらの改善は計算とエネルギーにかなりのコストを必要とする。 ここでは、高品質なデータプルーニングメトリックにアクセスできれば、指数的スケーリングに縮小できることを示す。
    論文  参考訳(メタデータ)   (Wed, 29 Jun 2022 09:20:47 GMT)
    • 通常、学習データセット内のデータには冗長なものが多く、それらをうまく扱うことでScaling lawを超えた学習が可能であるとの指摘。理論解析、実証とも行っており非常に興味深い内容。

Federated Learningにおける公平性とプライバシー

  • “You Can’t Fix What You Can’t Measure”: Privately Measuring Demographic Performance Disparities in Federated Learning [78.7]
    フェデレートされた学習は、デバイスが機械学習モデルのトレーニングに協力することを可能にする。 フェデレートラーニングで訓練されたモデルが、異なる人口集団に対して異なるパフォーマンスを示すのではないかという懸念が高まっている。 本研究では,ユーザのグループメンバーシップのプライバシを保護しながら,このようなパフォーマンス格差を計測できる可能性を検討する。
    論文  参考訳(メタデータ)   (Fri, 24 Jun 2022 09:46:43 GMT)
    • 連合学習を行ったときその中のグループ内で性能差(≒格差)が生じるという指摘を扱った論文。プライバシーの保護と格差の測定を提案。

Explainable AIを評価する視点

  • Connecting Algorithmic Research and Usage Contexts: A Perspective of Contextualized Evaluation for Explainable AI [65.4]
    説明可能なAI(XAI)を評価する方法に関するコンセンサスの欠如は、この分野の進歩を妨げる。 このギャップを埋める一つの方法は、異なるユーザ要求を考慮に入れた評価方法を開発することである、と我々は主張する。
    論文  参考訳(メタデータ)   (Wed, 22 Jun 2022 05:17:33 GMT)
    • XAIの「説明」が良いか悪いかはユーザ(とその目的)によって異なることが指摘されている。良い説明とは何かをユーザを軸として整理したサーベイ。これでOKという結論があるものではないが、「良い説明とは何か?」を考えるうえでとても勉強になる。
      • 評価の特性として「Faithfulness」「Completeness」「Stability」「Compactness」「(Un)Certainty (communication)」「Interactivity」「Translucence」「Comprehensibility」「Actionability」「Coherence」「Novelty」「Personalization」が挙げられていて、考慮事項が非常に多いことが分かる。

MET: Masked Encoding for Tabular Data

  • MET: Masked Encoding for Tabular Data [29.2]
    Masked SSL for Tabular Data (MET)は、ビジョンSSLのための人気のあるMAEアプローチに基づいている。 METは5つの多様なデータセット上で、新しい最先端技術(SOTA)を実現する。 私たちは、慎重に設計されたシンプルなデータセットの実験を通じて、METの作業にもっと光を当てました。
    論文  参考訳(メタデータ)   (Fri, 17 Jun 2022 05:51:10 GMT)
    • テーブルデータに対するSSL
    • 面白い研究だとは思うし、著者の比較方法が不明で何とも言えないところはあるが、CovTypeやIncomeは普通にXGB/LGBの方がスコアが高そうな気がする。

GEMv2: Multilingual NLG Benchmarking

  • GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.2]
    Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。 GEMv2は51言語で40のドキュメントデータセットをサポートする。 すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 23 Jun 2022 14:38:38 GMT)
    • モジュール式で拡張可能な自然言語生成系タスクの評価インフラストラクチャの提案。論文公開時点では日本語を含むタスクは3つのよう。
    • プロジェクトサイトはGEM (gem-benchmark.com)GEM (GEM benchmark) (huggingface.co)だと思うのだが、全データが公開されているわけではない(?)

財務質問回答(FinQA)に対するモデルアンサンブル

  • A Numerical Reasoning Question Answering System with Fine-grained Retriever and the Ensemble of Multiple Generators for FinQA [53.6]
    本稿では,財務テキストと表データソース間の数値推論質問に答える数値推論質問応答システムを提案する。 検索モジュールにおいて、生成モジュールの入力に無関係で類似のセルを同じ行に持ってくるのを避けるため、金のセルを検索するセルレトリバーを革新的に設計する。 アンサンブルモジュールでは,システム出力として最適なプログラムを選択するために複数のプログラムを統合する。
    論文  参考訳(メタデータ)   (Fri, 17 Jun 2022 01:55:29 GMT)
    • FinQAに対して複数のモジュール(アンサンブル)を適用、スコア: 69.79 を達成したとの報告。
      • FinQANet(RoBERTa Large)を大幅に上回るスコアだがやはり難しいタスクとの感想。

Scalable Neural Data Server

  • Scalable Neural Data Server: A Data Recommender for Transfer Learning [70.1]
    転送学習は、下流のパフォーマンスを改善するために追加データを活用する一般的な戦略である。 Nerve Data Server (NDS)は、特定の下流タスクに関連するデータを推奨する検索エンジンで、この問題に対処するためにこれまで提案されていた。 NDSは、データソースでトレーニングされた専門家の混合物を使用して、各ソースと下流タスクの類似性を推定する。 SNDSは、中間データセットに近接して、データソースと下流タスクの両方を表現します。
    論文  参考訳(メタデータ)   (Sun, 19 Jun 2022 12:07:32 GMT)
    • より良く学習可能なデータをレコメンデーションする手法の提案。
    • (当然ではあるが)データの価値はそれぞれ異なっているので重要なアプローチ。

テキストバックドア攻撃の防御ツールキットOpenBackdoor 

  • A Unified Evaluation of Textual Backdoor Learning: Frameworks and Benchmarks [72.7]
    我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。 また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
    論文  参考訳(メタデータ)   (Fri, 17 Jun 2022 02:29:23 GMT)
    • バックドア攻撃(データセット、事前学習モデル、ファインチューニング後のモデル)を整理、ツールキットを開発し、防御手法CUBE(ClUstering-based poisoned sample filtering for Backdoor-freE trainingを)提案。
      • CUBEはデータセットのクラスタリングを行い主要なクラスタを残すアプローチ。攻撃用のデータはそれ以外に比べて少ない事を仮定・利用している。
    • リポジトリはGitHub – thunlp/OpenBackdoor: An open-source toolkit for textual backdoor attack and defense

Square One Bias in NLP

  • Square One Bias in NLP: Towards a Multi-Dimensional Exploration of the Research Manifold [88.8]
    我々は、最近のNLP研究論文のマニュアル分類を通して、これが事実であることを示す。 NLP研究は正方形ではなく、精度だけでなく、公平性や解釈可能性にも焦点をあてる。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 20 Jun 2022 13:04:23 GMT)
    • NLPの研究の多くが精度、多言語性、公平性・解釈可能性の1軸に焦点を当てており、このような形式をSQUARE ONEと呼びそこから生まれるバイアスをSQUARE ONE BIASと呼んでいる。論文中のACL2021の分析結果も興味深いが、感覚的にも2軸以上を扱う論文はレアだと思う。
      • 先端研究の場合、競争激化もあって多様な軸で比較するのはしんどいんだろうと思わなくはないが、実務的には多様な評価は普通に行われる(やらないと怖くて使えない)わけで実務的な報告が増えて欲しいと思う今日この頃。
    • プロジェクトサイトはGitHub – google-research/url-nlp

Unified-IO

  • Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks [39.1]
    Unified-IOは、古典的なコンピュータビジョンタスクにまたがるさまざまなAIタスクを実行するモデルである。 我々は、サポート対象の入力と出力を個別の語彙トークン列に均質化することで、この統一を実現する。 Unified-IOはGRITベンチマークで7つのタスクすべてを実行することができる最初のモデルである。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 17 Jun 2022 17:53:47 GMT)
    • 非常に多様なデータ、タスクを扱えるモデルの提案。
      • META LMでも感じたが、汎用に使えるAI(しかも事前学習済み)は夢物語ではなくなりつつあると感じる。そしてマルチモーダルをつなぐのは言語なのだろうか。
    • プロジェクトサイトはUnified-IO, a new general purpose model from AI2 (allenai.org)