arXiv – ページ 204 – arXiv最新論文の紹介

Megatron-Turing NLG: 530Bの言語モデル

Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model [35.8]
本稿では,最大のモノリシックトランスフォーマーベース言語モデルMegatron-Turing NLG 530B(MT-NLG)のトレーニングについて述べる。 MT-NLGは,いくつかのNLPベンチマークにおいて,ゼロ,ワンショット,少数ショットの学習精度が向上し,新たな最先端結果が得られた。
論文参考訳（メタデータ） (Fri, 28 Jan 2022 08:59:57 GMT)
- M6-10T / Yuan 1.0 / Megatron-Turing NLG 530B 巨大な事前学習モデル – arXiv最新論文の紹介 (devneko.jp)の論文、5300億パラメータの巨大言語モデル。様々な条件でGPT-3の性能を上回る。
- 2ページ目の「Figure 1: Trend of sizes of state-of-the-art NLP models with time.」からも順調（？）にモデルサイズが大きくなっていることが分かる。学習用のシステム構成は560 ノードのDGX A100、1ノードあたり 8つの NVIDIA 80-GB A100 GPU、ピーク性能は1.4 exaFLOP/s （16-bit precision）とすごい。

DrugOOD: AI支援創薬のためのベンチマーク

DrugOOD: Out-of-Distribution (OOD) Dataset Curator and Benchmark for AI-aided Drug Discovery — A Focus on Affinity Prediction Problems with Noise Annotations [90.3]
我々は、AI支援薬物発見のための体系的なOODデータセットキュレーターおよびベンチマークであるDrugOOD を提案する。 DrugOODには、ベンチマークプロセスを完全に自動化するオープンソースのPythonパッケージが付属している。我々は、薬物標的結合親和性予測という、AIDDにおける最も重要な問題の1つに焦点を当てる。
論文参考訳（メタデータ） (Mon, 24 Jan 2022 12:32:48 GMT)
- AI支援創薬のためのデータセット・ベンチマークの提案であるが、34ページとサーベイのような情報量。この分野に対する情報整理にも役立つ。
- プロジェクトサイトはDrugOOD: OOD Dataset Curator and Benchmark for AI-aided Drug Discovery | DrugOOD

Vision Checklist: 堅牢性評価のためのチェックリスト

Vision Checklist: Towards Testable Error Analysis of Image Models to Help System Designers Interrogate Model Capabilities [26.2]
Vision Checklistは、堅牢性評価のためにシステムデザイナが使用可能なレポートを生成するために、モデルの能力を疑うためのフレームワークである。我々のフレームワークは、Tinyimagenet、CIFAR10、CIFAR100、Camelyon17のような複数のデータセットと、ViTやResnetのようなモデルで評価されている。
論文参考訳（メタデータ）参考訳（全文） (Thu, 27 Jan 2022 17:20:16 GMT)
- 画像系モデルの堅牢性を評価するフレームワークの提案。論文中の「Due to the high uncertainty in deployment environments, measures based on a small set of hold-out data are not enough for model evaluation.」という指摘の通り、テストセットによる評価だけでは社会実装には不十分でモデルの能力を疑う（限界を知っておく）のはとても重要。
- ソースコードなどは公開予定とのこと。

顔検出における学術モデルと商用モデルの比較

Are Commercial Face Detection Models as Biased as Academic Models? [64.7]
我々は学術的および商業的な顔検出システムを比較し、特にノイズに対する堅牢性について検討する。最新の学術的顔検出モデルでは, 高齢者や男性的に性別を呈示する人に対して, 統計的に有意なパフォーマンス低下がみられ, ロバスト性に差があることが判明した。商用モデルは、常に学術モデルと同じくらいの偏り、あるいはより偏りがある、と結論付けます。
論文参考訳（メタデータ） (Tue, 25 Jan 2022 02:21:42 GMT)
- Face Detectionタスクの頑健性についてでアカデミックなモデルと商用のモデルを比較、商用モデルが明確に優れているとは言えないと指摘した論文。
- テクノロジーは似ているわけでそうだろうなと思いつつ、商用モデルの方が（fairnessなど重要な問題につながる）頑健性には気を使うべきであるとは思う。

Attentionは説明に使用できない

Attention cannot be an Explanation [99.4]
私たちは、人間の信頼と信頼を高める上で、注意に基づく説明がどの程度効果的か尋ねる。我々は,注意に基づく説明が適している程度を質的かつ定量的に評価することを目的とした広範囲な人間実験を行った。実験の結果,注意は説明として利用できないことが明らかとなった。
論文参考訳（メタデータ）参考訳（全文） (Wed, 26 Jan 2022 21:34:05 GMT)
- 人間の評価結果をもとにAttention（モデルが注視している部分の表示によって説明しようするタイプの手法）は説明に使用できないと結論した論文。様々な立場がありうるが一つの結果として注意すべきと思う。
  - 見る人の属性にもよる気はしつつ、個人的にもAttentionが説明かというとかなり懐疑的
  - Google AI Blog: Introducing StylEx: A New Approach for Visual Explanation of Classifiers (googleblog.com) くらい変化が見える必要がありそう。

MILAN(Mutual-Information-guided Linguistic Annotation of Neurons)を用いたニューロンの可視化と編集

Natural Language Descriptions of Deep Visual Features [50.3]
自然言語による記述で自動的にニューロンをラベル付けする手法を提案する。我々はMILANを用いて、視覚モデルにおける属性、カテゴリ、関係情報を選択的に選択したニューロンの分布と重要性を特徴付ける。また、これらの特徴を曖昧にすることを目的としたデータセットでトレーニングされたモデルにおいて、人種や性別といった保護されたカテゴリに敏感な、監査用のMILANも使用しています。
論文参考訳（メタデータ） (Wed, 26 Jan 2022 18:48:02 GMT)
- ネットワーク上のニューロンの属性を言語化（自然言語での説明）でき、それを編集可能という論文。
  - XAIの文脈で説明を自然言語へ帰着するのはイマイチかなと思っていたが、監査や編集という面では良いのかもしれない。

Democratic AI: 強化学習を用いた human-in-the-loop pipelineによる再配分

Human-centered mechanism design with Democratic AI [9.8]
人間に好まれる社会メカニズムの設計に強化学習を用いるDemocratic AIと呼ばれるパイプラインを開発します。人間の好みを最適化することによって、民主的AIは、価値に合わせた政策革新の有望な方法になり得る。
論文参考訳（メタデータ） (Thu, 27 Jan 2022 10:56:33 GMT)
- オンライン投資ゲームにおける富の再配分メカニズムの設計に深層強化学習を利用、人間のレフェリーよりも好まれるメカニズムが作れたとの報告。
  - DeepMindっぽい面白い研究だと思った。人間の介入無しの“AI government”を指示しているわけではないことも強調されている。Potential limitations of Democratic AIにあるようなAIの限界に関する議論は興味深い。

Whose Language Counts as High Quality?

Whose Language Counts as High Quality? Measuring Language Ideologies in Text Data Selection [83.4]
より富裕で、教育され、都会のZIPコードにある大きな学校の新聞は、質の高いものとして分類される傾向にある。フィルタの質測定が,事実性や文学的評価といった他の感性指標と一致しないことを実証する。高品質なコーパスを特権化することは言語イデオロギーを伴い,言語モデルのためのトレーニングコーパスの構築にはもっと注意が必要である,と我々は主張する。
論文参考訳（メタデータ） (Wed, 26 Jan 2022 18:46:26 GMT)
- テキストをフィルタリングし高品質化することは大規模事前学習の前処理として一般的に行われている。現状は裕福な人が書いた（立場の強い人が書いた）テキストがその実態以上に高品質と判定されており、暗黙的な不平等につながる危険があるとの指摘。
- fugumtのフィルタリングルールでもドメイン名（第二レベルドメインなど）を大きな手掛かりとしており危険性を内包している可能性が高い。鋭い指摘だと思った。
- リポジトリはGitHub – kernelmachine/quality-filter: Code for “Whose language is high quality?” paper

Table Pretraining: 表形式を扱うフレームワークのサーベイ

Table Pretraining: A Survey on Model Architectures, Pretraining Objectives, and Downstream Tasks [37.4]
テキストや画像の成功を受けて、テーブル事前学習フレームワークの急激な普及が提案されている。表の事前訓練は通常、表とテキストの合同の事前訓練の形式を取る。この調査は、異なるモデル設計の包括的なレビュー、事前学習の目的、およびテーブル事前学習のための下流タスクを提供することを目的としている。
論文参考訳（メタデータ） (Mon, 24 Jan 2022 15:22:24 GMT)
- 表やテキスト構造へのDeep Learning適用のサーベイ。table question answeringやtable type recognitionといった表を含むドメインの問題やテーブルデータへのDeep Learning適用（TabTransformerやSAINT）が対象になっている。
- この分野を概観するには良いが詳細を知るには挙げられた論文を読む必要がありそう。

WebUAV-3M: 大規模UAV追跡ベンチマーク

WebUAV-3M: A Benchmark Unveiling the Power of Million-Scale Deep UAV Tracking [40.8]
WebUAV-3Mは100万スケールの無人航空機(UAV)追跡ベンチマークである。われわれは、インターネットから3Mフレーム以上の4,485本のビデオを集めている。 WebUAV-3Mは、公的なUAV追跡ベンチマークとしては最大である。
論文参考訳（メタデータ）参考訳（全文） (Wed, 19 Jan 2022 05:39:42 GMT)
- 大規模なUAV Tracking（無人航空機から撮影された映像を使って物体を追跡するタスク）データセット・ベンチマーク。
- リポジトリはGitHub – 983632847/WebUAV-3M: WebUAV-3M

2025年4月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30