Minerva: 定量的な推論を改善した大規模言語モデル

  • Solving Quantitative Reasoning Problems with Language Models [53.5]
    我々は、一般的な自然言語データに基づいて事前訓練された大規模言語モデルであるMinervaを紹介し、さらに技術的な内容について訓練する。 このモデルは、外部ツールを使わずに、技術的ベンチマークで最先端のパフォーマンスを達成する。 我々はまた、物理学、生物学、化学、経済学、その他の科学における200以上の学部レベルの問題に対して、我々のモデルを評価した。
    論文  参考訳(メタデータ)   (Wed, 29 Jun 2022 18:54:49 GMT)
    • 従来難しいとされてきた定量的な推論(いわゆる理系っぽいテストで出てくる問題)を含む問題を解けるモデルの提案。PaLMやOpenAIのdavinti-002(GPT-3)に比べて大幅にパフォーマンスを改善。
      • 通常の問題同様、パラメータサイズの増加による改善もみられる。
      • 従来難しいとされていた問題が解けていくのは素晴らしいが、最近のスピード感が凄くて驚き。
      • 推論時の工夫もやっているが、conclusionでは「high quality mathematical dataset」が最初に挙げられていた。
    • BlogはGoogle AI Blog: Minerva: Solving Quantitative Reasoning Problems with Language Models (googleblog.com)

Beyond neural scaling laws

  • Beyond neural scaling laws: beating power law scaling via data pruning [37.8]広範囲に観察されたニューラルネットワークのスケーリング法則では、トレーニングセットのサイズやモデルサイズに応じてディープラーニングのパフォーマンスが大幅に向上している。しかし、スケーリングによるこれらの改善は計算とエネルギーにかなりのコストを必要とする。 ここでは、高品質なデータプルーニングメトリックにアクセスできれば、指数的スケーリングに縮小できることを示す。
    論文  参考訳(メタデータ)   (Wed, 29 Jun 2022 09:20:47 GMT)
    • 通常、学習データセット内のデータには冗長なものが多く、それらをうまく扱うことでScaling lawを超えた学習が可能であるとの指摘。理論解析、実証とも行っており非常に興味深い内容。

Federated Learningにおける公平性とプライバシー

  • “You Can’t Fix What You Can’t Measure”: Privately Measuring Demographic Performance Disparities in Federated Learning [78.7]
    フェデレートされた学習は、デバイスが機械学習モデルのトレーニングに協力することを可能にする。 フェデレートラーニングで訓練されたモデルが、異なる人口集団に対して異なるパフォーマンスを示すのではないかという懸念が高まっている。 本研究では,ユーザのグループメンバーシップのプライバシを保護しながら,このようなパフォーマンス格差を計測できる可能性を検討する。
    論文  参考訳(メタデータ)   (Fri, 24 Jun 2022 09:46:43 GMT)
    • 連合学習を行ったときその中のグループ内で性能差(≒格差)が生じるという指摘を扱った論文。プライバシーの保護と格差の測定を提案。

Explainable AIを評価する視点

  • Connecting Algorithmic Research and Usage Contexts: A Perspective of Contextualized Evaluation for Explainable AI [65.4]
    説明可能なAI(XAI)を評価する方法に関するコンセンサスの欠如は、この分野の進歩を妨げる。 このギャップを埋める一つの方法は、異なるユーザ要求を考慮に入れた評価方法を開発することである、と我々は主張する。
    論文  参考訳(メタデータ)   (Wed, 22 Jun 2022 05:17:33 GMT)
    • XAIの「説明」が良いか悪いかはユーザ(とその目的)によって異なることが指摘されている。良い説明とは何かをユーザを軸として整理したサーベイ。これでOKという結論があるものではないが、「良い説明とは何か?」を考えるうえでとても勉強になる。
      • 評価の特性として「Faithfulness」「Completeness」「Stability」「Compactness」「(Un)Certainty (communication)」「Interactivity」「Translucence」「Comprehensibility」「Actionability」「Coherence」「Novelty」「Personalization」が挙げられていて、考慮事項が非常に多いことが分かる。

MET: Masked Encoding for Tabular Data

  • MET: Masked Encoding for Tabular Data [29.2]
    Masked SSL for Tabular Data (MET)は、ビジョンSSLのための人気のあるMAEアプローチに基づいている。 METは5つの多様なデータセット上で、新しい最先端技術(SOTA)を実現する。 私たちは、慎重に設計されたシンプルなデータセットの実験を通じて、METの作業にもっと光を当てました。
    論文  参考訳(メタデータ)   (Fri, 17 Jun 2022 05:51:10 GMT)
    • テーブルデータに対するSSL
    • 面白い研究だとは思うし、著者の比較方法が不明で何とも言えないところはあるが、CovTypeやIncomeは普通にXGB/LGBの方がスコアが高そうな気がする。

GEMv2: Multilingual NLG Benchmarking

  • GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.2]
    Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。 GEMv2は51言語で40のドキュメントデータセットをサポートする。 すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 23 Jun 2022 14:38:38 GMT)
    • モジュール式で拡張可能な自然言語生成系タスクの評価インフラストラクチャの提案。論文公開時点では日本語を含むタスクは3つのよう。
    • プロジェクトサイトはGEM (gem-benchmark.com)GEM (GEM benchmark) (huggingface.co)だと思うのだが、全データが公開されているわけではない(?)

財務質問回答(FinQA)に対するモデルアンサンブル

  • A Numerical Reasoning Question Answering System with Fine-grained Retriever and the Ensemble of Multiple Generators for FinQA [53.6]
    本稿では,財務テキストと表データソース間の数値推論質問に答える数値推論質問応答システムを提案する。 検索モジュールにおいて、生成モジュールの入力に無関係で類似のセルを同じ行に持ってくるのを避けるため、金のセルを検索するセルレトリバーを革新的に設計する。 アンサンブルモジュールでは,システム出力として最適なプログラムを選択するために複数のプログラムを統合する。
    論文  参考訳(メタデータ)   (Fri, 17 Jun 2022 01:55:29 GMT)
    • FinQAに対して複数のモジュール(アンサンブル)を適用、スコア: 69.79 を達成したとの報告。
      • FinQANet(RoBERTa Large)を大幅に上回るスコアだがやはり難しいタスクとの感想。

Scalable Neural Data Server

  • Scalable Neural Data Server: A Data Recommender for Transfer Learning [70.1]
    転送学習は、下流のパフォーマンスを改善するために追加データを活用する一般的な戦略である。 Nerve Data Server (NDS)は、特定の下流タスクに関連するデータを推奨する検索エンジンで、この問題に対処するためにこれまで提案されていた。 NDSは、データソースでトレーニングされた専門家の混合物を使用して、各ソースと下流タスクの類似性を推定する。 SNDSは、中間データセットに近接して、データソースと下流タスクの両方を表現します。
    論文  参考訳(メタデータ)   (Sun, 19 Jun 2022 12:07:32 GMT)
    • より良く学習可能なデータをレコメンデーションする手法の提案。
    • (当然ではあるが)データの価値はそれぞれ異なっているので重要なアプローチ。

テキストバックドア攻撃の防御ツールキットOpenBackdoor 

  • A Unified Evaluation of Textual Backdoor Learning: Frameworks and Benchmarks [72.7]
    我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。 また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
    論文  参考訳(メタデータ)   (Fri, 17 Jun 2022 02:29:23 GMT)
    • バックドア攻撃(データセット、事前学習モデル、ファインチューニング後のモデル)を整理、ツールキットを開発し、防御手法CUBE(ClUstering-based poisoned sample filtering for Backdoor-freE trainingを)提案。
      • CUBEはデータセットのクラスタリングを行い主要なクラスタを残すアプローチ。攻撃用のデータはそれ以外に比べて少ない事を仮定・利用している。
    • リポジトリはGitHub – thunlp/OpenBackdoor: An open-source toolkit for textual backdoor attack and defense

Square One Bias in NLP

  • Square One Bias in NLP: Towards a Multi-Dimensional Exploration of the Research Manifold [88.8]
    我々は、最近のNLP研究論文のマニュアル分類を通して、これが事実であることを示す。 NLP研究は正方形ではなく、精度だけでなく、公平性や解釈可能性にも焦点をあてる。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 20 Jun 2022 13:04:23 GMT)
    • NLPの研究の多くが精度、多言語性、公平性・解釈可能性の1軸に焦点を当てており、このような形式をSQUARE ONEと呼びそこから生まれるバイアスをSQUARE ONE BIASと呼んでいる。論文中のACL2021の分析結果も興味深いが、感覚的にも2軸以上を扱う論文はレアだと思う。
      • 先端研究の場合、競争激化もあって多様な軸で比較するのはしんどいんだろうと思わなくはないが、実務的には多様な評価は普通に行われる(やらないと怖くて使えない)わけで実務的な報告が増えて欲しいと思う今日この頃。
    • プロジェクトサイトはGitHub – google-research/url-nlp