GEMv2: Multilingual NLG Benchmarking

  • GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.2]
    Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。 GEMv2は51言語で40のドキュメントデータセットをサポートする。 すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 23 Jun 2022 14:38:38 GMT)
    • モジュール式で拡張可能な自然言語生成系タスクの評価インフラストラクチャの提案。論文公開時点では日本語を含むタスクは3つのよう。
    • プロジェクトサイトはGEM (gem-benchmark.com)GEM (GEM benchmark) (huggingface.co)だと思うのだが、全データが公開されているわけではない(?)

財務質問回答(FinQA)に対するモデルアンサンブル

  • A Numerical Reasoning Question Answering System with Fine-grained Retriever and the Ensemble of Multiple Generators for FinQA [53.6]
    本稿では,財務テキストと表データソース間の数値推論質問に答える数値推論質問応答システムを提案する。 検索モジュールにおいて、生成モジュールの入力に無関係で類似のセルを同じ行に持ってくるのを避けるため、金のセルを検索するセルレトリバーを革新的に設計する。 アンサンブルモジュールでは,システム出力として最適なプログラムを選択するために複数のプログラムを統合する。
    論文  参考訳(メタデータ)   (Fri, 17 Jun 2022 01:55:29 GMT)
    • FinQAに対して複数のモジュール(アンサンブル)を適用、スコア: 69.79 を達成したとの報告。
      • FinQANet(RoBERTa Large)を大幅に上回るスコアだがやはり難しいタスクとの感想。

Scalable Neural Data Server

  • Scalable Neural Data Server: A Data Recommender for Transfer Learning [70.1]
    転送学習は、下流のパフォーマンスを改善するために追加データを活用する一般的な戦略である。 Nerve Data Server (NDS)は、特定の下流タスクに関連するデータを推奨する検索エンジンで、この問題に対処するためにこれまで提案されていた。 NDSは、データソースでトレーニングされた専門家の混合物を使用して、各ソースと下流タスクの類似性を推定する。 SNDSは、中間データセットに近接して、データソースと下流タスクの両方を表現します。
    論文  参考訳(メタデータ)   (Sun, 19 Jun 2022 12:07:32 GMT)
    • より良く学習可能なデータをレコメンデーションする手法の提案。
    • (当然ではあるが)データの価値はそれぞれ異なっているので重要なアプローチ。

テキストバックドア攻撃の防御ツールキットOpenBackdoor 

  • A Unified Evaluation of Textual Backdoor Learning: Frameworks and Benchmarks [72.7]
    我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。 また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
    論文  参考訳(メタデータ)   (Fri, 17 Jun 2022 02:29:23 GMT)
    • バックドア攻撃(データセット、事前学習モデル、ファインチューニング後のモデル)を整理、ツールキットを開発し、防御手法CUBE(ClUstering-based poisoned sample filtering for Backdoor-freE trainingを)提案。
      • CUBEはデータセットのクラスタリングを行い主要なクラスタを残すアプローチ。攻撃用のデータはそれ以外に比べて少ない事を仮定・利用している。
    • リポジトリはGitHub – thunlp/OpenBackdoor: An open-source toolkit for textual backdoor attack and defense

Square One Bias in NLP

  • Square One Bias in NLP: Towards a Multi-Dimensional Exploration of the Research Manifold [88.8]
    我々は、最近のNLP研究論文のマニュアル分類を通して、これが事実であることを示す。 NLP研究は正方形ではなく、精度だけでなく、公平性や解釈可能性にも焦点をあてる。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 20 Jun 2022 13:04:23 GMT)
    • NLPの研究の多くが精度、多言語性、公平性・解釈可能性の1軸に焦点を当てており、このような形式をSQUARE ONEと呼びそこから生まれるバイアスをSQUARE ONE BIASと呼んでいる。論文中のACL2021の分析結果も興味深いが、感覚的にも2軸以上を扱う論文はレアだと思う。
      • 先端研究の場合、競争激化もあって多様な軸で比較するのはしんどいんだろうと思わなくはないが、実務的には多様な評価は普通に行われる(やらないと怖くて使えない)わけで実務的な報告が増えて欲しいと思う今日この頃。
    • プロジェクトサイトはGitHub – google-research/url-nlp

Unified-IO

  • Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks [39.1]
    Unified-IOは、古典的なコンピュータビジョンタスクにまたがるさまざまなAIタスクを実行するモデルである。 我々は、サポート対象の入力と出力を個別の語彙トークン列に均質化することで、この統一を実現する。 Unified-IOはGRITベンチマークで7つのタスクすべてを実行することができる最初のモデルである。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 17 Jun 2022 17:53:47 GMT)
    • 非常に多様なデータ、タスクを扱えるモデルの提案。
      • META LMでも感じたが、汎用に使えるAI(しかも事前学習済み)は夢物語ではなくなりつつあると感じる。そしてマルチモーダルをつなぐのは言語なのだろうか。
    • プロジェクトサイトはUnified-IO, a new general purpose model from AI2 (allenai.org)

大規模言語モデルと遺伝的プログラミング

  • Evolution through Large Models [15.0]
    • コードを生成するために訓練された大言語モデル(LLM)は、遺伝的プログラミング(GP)プログラムに適用された突然変異演算子の有効性を大幅に改善することができる。 大型モデル(ELM)による進化の広大さを強調するため、ELMとMAP-Elitesを組み合わせたメイン実験では、動作補助ロボットを出力するPythonプログラムの数十万の関数例が生成される。 トレーニングデータがこれまで利用できなかったドメインにおいて、特定のコンテキストに対して適切なアーティファクトを出力できる新しいモデルをブートストラップする機能には、オープンディペンデンス、ディープラーニング、強化学習といった意味がある。
    • 論文  参考訳(メタデータ)   (Fri, 17 Jun 2022 17:07:04 GMT)
      • 遺伝的プログラミングに大規模言語モデルを組み合わせる(Evolution through Large Models)ことで大規模言語モデルが想定しないような事例にも対応可能なコードを生成することが可能とのこと。
      • 論文にもあるようにLLMを使っていれば突然変異の範囲が限定され、より良いものが得られる可能性が高まるように思う。非常に興味深い。

Parti: Pathways Autoregressive Text-to-Image

  • Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.0]
    Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。 PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。 PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
    論文  参考訳(メタデータ)   (Wed, 22 Jun 2022 01:11:29 GMT)
    • DALL-E2やImagenなど画像生成系モデルの進化が速い。Partiもきわめて強力な画像生成モデルであり、作例が凄い。加えてモデルサイズを変えた比較が非常に参考になり、350Mパラメータと20Bパラメータではクオリティが異なることが分かる。
    • プロジェクトサイトはParti: Pathways Autoregressive Text-to-Image Model (research.google)
      • 「we have decided not to release our Parti models, code, or data for public use without further safeguards in place.」とのこと。クローズドな方針は議論を呼びそう。(とはいえ、公開されたからといって計算リソース的に再現は容易ではないが…)

Deep Clusteringのサーベイ

  • A Comprehensive Survey on Deep Clustering: Taxonomy, Challenges, and Future Directions [49.0]
    クラスタリングは、文献で広く研究されている基本的な機械学習タスクである。 ディープクラスタリング(Deep Clustering)、すなわち表現学習とクラスタリングを共同で最適化する手法が提案され、コミュニティで注目を集めている。 深層クラスタリングの本質的なコンポーネントを要約し、深層クラスタリングと深層クラスタリングの相互作用を設計する方法によって既存の手法を分類する。
    論文  参考訳(メタデータ)   (Wed, 15 Jun 2022 15:05:13 GMT)
    • ありそうであまり見ない気がするDeep Clusteringのサーベイ。引用数246と大規模。

Data Augmentationのサーベイ

  • A Survey of Automated Data Augmentation Algorithms for Deep Learning-based Image Classication Tasks [21.6]
    データ駆動技術であるディープモデルは、大量の正確なラベル付きトレーニングデータを必要とします。 Data Augmentation (DA)は、オリジナルのサンプルから新しいイメージを人工的に生成することができる。 データ拡張戦略はデータセットによって異なり、さまざまなデータ型がモデルのトレーニングを容易にするために異なる拡張を必要とする可能性がある。 AutoDAモデルの目的は、モデルの性能向上を最大化できる最適なDAポリシーを見つけることである。
    論文  参考訳(メタデータ)   (Tue, 14 Jun 2022 01:40:09 GMT)
    • データ拡張に関するサーベイ。
      • AutoMLのようなAutomated Data Augmentationという研究分野があるらしく参考になる。