2022年2月21日 – arXiv最新論文の紹介

ZeroGen: データ生成を通したZero-shot Learning

ZeroGen: Efficient Zero-shot Learning via Dataset Generation [28.5]
柔軟で効率的なゼロショート学習手法であるZeroGenについて検討する。ゼロショットタスクが与えられた場合、まず、教師なしの方法で PLM を用いて、スクラッチからデータセットを生成する。テキスト分類、質問応答、自然言語推論といった異なるNLPタスクの実験と分析は、ZeroGenの有効性を示している。
論文参考訳（メタデータ） (Wed, 16 Feb 2022 08:18:02 GMT)
- 大規模生成モデルから知識を引き出し（データセットを作成し）それよりも小さなモデルで再現するアプローチの論文。Text classiﬁcationの結果は良いがSQuADなど教師有りとのパフォーマンス差があるタスクもあるとのこと。
  - このアプローチが有望であるとの報告は多いが、上記ギャップの理由が知りたいところ。
- リポジトリはGitHub – jiacheng-ye/ZeroGen: Code for our paper “ZeroGen: Efficient Zero-shot Learning via Dataset Generation”.

Seeing Like a Toolkit: How Toolkits Envision the Work of AI Ethics [27.0]
我々は27のAI倫理ツールキットの質的分析を行い、倫理の作業がどのように想像され、これらのツールキットによってどのように支援されるかを調べる。 AI倫理ツールキットは、AI倫理の作業が個々の技術実践者にとって技術的作業である、という枠組みがほとんどである。倫理的な作業を行う上で,組織的な力のダイナミクスをナビゲートする方法に関するガイダンスの欠如を特定します。
論文参考訳（メタデータ）参考訳（全文） (Thu, 17 Feb 2022 17:55:26 GMT)
- AI Ethicsに関するツールが27個もあることに驚きつつ、技術的でない部分のサポートが不十分であるとの指摘は「そうだよね」という感想。
- AI倫理のツールキットは「技術的でない面をサポート」し「技術者でない人をサポートし」、「集団行動としてAI倫理活動をサポート」すべきという指摘は重要。この手の話題は視点が多岐にわたるため技術者が全てをカバーするのは無理で、様々なバックグラウンドを持つ人の協同が必須。

textless-lib: a Library for Textless Spoken Language Processing [50.1]
我々はPyTorchベースのライブラリであるtextless-libを紹介した。ライブラリが提供するビルディングブロックを説明し、そのユーザビリティを実証する。
論文参考訳（メタデータ）参考訳（全文） (Tue, 15 Feb 2022 12:39:42 GMT)
- TextlessNLP用のライブラリ、事前学習モデルも提供されている。テキスト化を通さず音声（発話）内容を処理していくアプローチはテキスト化で失われる情報の活用可能性があり非常に興味深い。
- リポジトリはGitHub – facebookresearch/textlesslib: Library for Textless Spoken Language Processing

Measuring “Why” in Recommender Systems: a Comprehensive Survey on the Evaluation of Explainable Recommendation [87.8]
説明可能な推奨の根本的な問題は、説明を評価する方法である。近年,様々な評価手法が提案されている。しかし、それらは異なる論文に散在しており、体系的かつ詳細な比較が欠けている。このギャップを埋めるために,本稿では,過去の研究を包括的にレビューし,評価の観点や評価方法によって異なる分類法を提供する。この調査は、IJCAI、AAAI、TheWebConf、Recsys、UMAP、IUIといったトップレベルのカンファレンスから100以上の論文に基づいています。
論文参考訳（メタデータ）参考訳（全文） (Mon, 14 Feb 2022 02:58:55 GMT)
- 重要性が増しているレコメンデーションにおけるXAIでどのような評価がされされているかを整理した論文。9ページと短めのサーベイ。