2022年2月 – ページ 2 – arXiv最新論文の紹介

SCRIPT(StruCtural RelatIve Position): ソースコードの要約

Source Code Summarization with Structural Relative Position Guided Transformer [19.8]
ソースコードの要約は、プログラミング言語の簡潔で明確な自然言語記述を生成することを目的としている。近年の取り組みは、Transformerなどのニューラルネットワークにコードの構文構造を組み込むことに重点を置いている。 SCRIPTと呼ばれる構造相対位置案内変換器を提案する。
論文参考訳（メタデータ） (Mon, 14 Feb 2022 07:34:33 GMT)
- ソースコードの要約（ソースコードに対して短い自然言語の記述を生成）にTransformer型の構造を適用、優れた性能を達成。
  - （略称は無理やり感があるが）有用な研究、様々なアプローチがあり興味深い。
- リポジトリはGitHub – GoneZ5/SCRIPT

ZeroGen: データ生成を通したZero-shot Learning

ZeroGen: Efficient Zero-shot Learning via Dataset Generation [28.5]
柔軟で効率的なゼロショート学習手法であるZeroGenについて検討する。ゼロショットタスクが与えられた場合、まず、教師なしの方法で PLM を用いて、スクラッチからデータセットを生成する。テキスト分類、質問応答、自然言語推論といった異なるNLPタスクの実験と分析は、ZeroGenの有効性を示している。
論文参考訳（メタデータ） (Wed, 16 Feb 2022 08:18:02 GMT)
- 大規模生成モデルから知識を引き出し（データセットを作成し）それよりも小さなモデルで再現するアプローチの論文。Text classiﬁcationの結果は良いがSQuADなど教師有りとのパフォーマンス差があるタスクもあるとのこと。
  - このアプローチが有望であるとの報告は多いが、上記ギャップの理由が知りたいところ。
- リポジトリはGitHub – jiacheng-ye/ZeroGen: Code for our paper “ZeroGen: Efficient Zero-shot Learning via Dataset Generation”.

AI倫理に関するツールキットのサーベイ

Seeing Like a Toolkit: How Toolkits Envision the Work of AI Ethics [27.0]
我々は27のAI倫理ツールキットの質的分析を行い、倫理の作業がどのように想像され、これらのツールキットによってどのように支援されるかを調べる。 AI倫理ツールキットは、AI倫理の作業が個々の技術実践者にとって技術的作業である、という枠組みがほとんどである。倫理的な作業を行う上で,組織的な力のダイナミクスをナビゲートする方法に関するガイダンスの欠如を特定します。
論文参考訳（メタデータ）参考訳（全文） (Thu, 17 Feb 2022 17:55:26 GMT)
- AI Ethicsに関するツールが27個もあることに驚きつつ、技術的でない部分のサポートが不十分であるとの指摘は「そうだよね」という感想。
- AI倫理のツールキットは「技術的でない面をサポート」し「技術者でない人をサポートし」、「集団行動としてAI倫理活動をサポート」すべきという指摘は重要。この手の話題は視点が多岐にわたるため技術者が全てをカバーするのは無理で、様々なバックグラウンドを持つ人の協同が必須。

textless-lib: Textlessな（音声）自然言語処理ライブラリ

textless-lib: a Library for Textless Spoken Language Processing [50.1]
我々はPyTorchベースのライブラリであるtextless-libを紹介した。ライブラリが提供するビルディングブロックを説明し、そのユーザビリティを実証する。
論文参考訳（メタデータ）参考訳（全文） (Tue, 15 Feb 2022 12:39:42 GMT)
- TextlessNLP用のライブラリ、事前学習モデルも提供されている。テキスト化を通さず音声（発話）内容を処理していくアプローチはテキスト化で失われる情報の活用可能性があり非常に興味深い。
- リポジトリはGitHub – facebookresearch/textlesslib: Library for Textless Spoken Language Processing

Explainableなレコメンデーションシステムのサーベイ

Measuring “Why” in Recommender Systems: a Comprehensive Survey on the Evaluation of Explainable Recommendation [87.8]
説明可能な推奨の根本的な問題は、説明を評価する方法である。近年,様々な評価手法が提案されている。しかし、それらは異なる論文に散在しており、体系的かつ詳細な比較が欠けている。このギャップを埋めるために,本稿では,過去の研究を包括的にレビューし,評価の観点や評価方法によって異なる分類法を提供する。この調査は、IJCAI、AAAI、TheWebConf、Recsys、UMAP、IUIといったトップレベルのカンファレンスから100以上の論文に基づいています。
論文参考訳（メタデータ）参考訳（全文） (Mon, 14 Feb 2022 02:58:55 GMT)
- 重要性が増しているレコメンデーションにおけるXAIでどのような評価がされされているかを整理した論文。9ページと短めのサーベイ。

欠損を補間すべきかしないべきか

To Impute or not to Impute? — Missing Data in Treatment Effect Estimation [84.8]
我々は,MCM(Mixed Con founded missingness)と呼ばれる新しい欠損機構を同定し,ある欠損度が治療選択を判断し,他の欠損度が治療選択によって決定されることを示した。本研究は,全てのデータを因果的に入力すると,不偏推定を行うために必要な情報を効果的に除去するので,処理効果のモデルが貧弱になることを示す。私たちのソリューションは選択的計算であり、CMMからの洞察を使って、どの変数を補間すべきで、どの変数を補間すべきでないかを正確に知らせる。
論文参考訳（メタデータ） (Fri, 4 Feb 2022 12:08:31 GMT)
- 欠損には補間すべきものとそうではないものがある。介入効果の推定においてそれらをどう取り扱うかを扱った論文
- 欠損の扱いは様々な場所で議論になり、参考になる

TIML(Task-Informed Meta-Learning ): 農業におけるメタラーニング

TIML: Task-Informed Meta-Learning for Agriculture [20.6]
我々は、データ分散領域における農業文脈におけるメタラーニングの利用を探求する以前の研究に基づいて構築した。本稿では,タスク固有のメタデータを活用するモデルに依存しないメタラーニングの強化であるタスクインフォームドメタラーニング(TIML)を紹介する。
論文参考訳（メタデータ） (Fri, 4 Feb 2022 13:27:55 GMT)
- 農業を対象とした（地理的情報を用いる）メタラーニング、作物の種類分類と収量推定で優れた性能を達成。
- リポジトリはGitHub – nasaharvest/timl: Task-Informed Meta-Learning

コード生成のおけるXAI

Investigating Explainability of Generative AI for Code through Scenario-based Design [44.4]
生成AI(GenAI)技術は成熟し、ソフトウェア工学のようなアプリケーションドメインに適用されています。私たちは43人のソフトウェアエンジニアと9つのワークショップを開催しました。そこでは、最先端のジェネレーティブAIモデルの実例を使って、ユーザの説明可能性のニーズを導き出しました。我々の研究は、GenAIのコードに対する説明可能性の必要性を探求し、新しいドメインにおけるXAIの技術開発を人間中心のアプローチがいかに促進するかを実証する。
論文参考訳（メタデータ）参考訳（全文） (Thu, 10 Feb 2022 08:52:39 GMT)
- 最近流行りつつあるコード生成を対象としたXAIの整理。ワークショップを行い11のカテゴリを特定とのこと。通常のXAIでは見られない（具体化されていない？）項目もあって興味深い。
  - Input、Output、How(global) 、Perfomance、How to 、Control、Why / Why not、Data、System Requirement & Impact、Limitation、What if

AIOpsと解釈性

Towards a consistent interpretation of AIOps models [24.2]
内部整合性,外部整合性,時間整合性という,AIOpsモデルの解釈の整合性について検討する。学習者からのランダム性、ハイパーパラメータチューニング、データサンプリングは、一貫した解釈を生成するために制御されるべきである。我々の研究は、実践者が一貫したAIOpsモデルの解釈を引き出すための貴重なガイドラインを提供する。
論文参考訳（メタデータ） (Fri, 4 Feb 2022 18:33:14 GMT)
- AI Opsと解釈性に関する論文、興味深いサーベイ

ClidSum(Cross-LIngual Dialogue SUMmarization): クロスリンガルな対話要約データセットとmDialBARTモデル

ClidSum: A Benchmark Dataset for Cross-Lingual Dialogue Summarization [41.7]
本稿では,対話文書を用いた言語間要約システム構築のためのベンチマークデータセットClidSumを提案する。それは、2つのサブセット(SAMSumとMediaSum)から67k以上の対話文書と、異なるターゲット言語における112k以上の注釈付き要約からなる。
論文参考訳（メタデータ） (Fri, 11 Feb 2022 13:32:14 GMT)
- クロスリンガルな対話要約データセットとモデルの提案。データセットの規模は大きく有用そう。モデルはmBART-50ベースで翻訳を併用する手法を上回る性能とのこと。
  - 8ページのSummarize-then-translate、Translate-then-summarizeを含む結果も非常に興味深い
- リポジトリはGitHub – krystalan/ClidSum: ClidSum: A Benchmark Dataset for Cross-Lingual Dialogue Summarization、現状ではコード等はアップロードされておらず今月中にリリース予定とのこと。

2022年2月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28