COIN++(COmpression with Implicit Neural representations): DNNを用いた圧縮

  • COIN++: Data Agnostic Neural Compression [55.3]
    COIN++は、幅広いデータモダリティをシームレスに扱うニューラルネットワーク圧縮フレームワークである。 様々なデータモダリティを圧縮することで,本手法の有効性を示す。
    論文  参考訳(メタデータ)   (Sun, 30 Jan 2022 20:12:04 GMT)
    • 圧縮へのニューラルネットワークの応用。JPEG2000等と比べても優れた性能

IGLUE(Image-Grounded Language Understanding Evaluation): 多言語/画像/言語理解のベンチマーク

  • IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages [87.5]
    画像認識言語理解評価ベンチマークについて紹介する。iglueは、既存のデータセットを集約し、visual question answering, cross-modal retrieval, grounded reasoning, grounded entailmentタスクを20の多様な言語にまたがって作成する。 評価結果から, translate-test transferがゼロショット転送よりも優れていること, fewショット学習が多くのタスクに役立てることが困難であることが判明した。
    論文  参考訳(メタデータ)   (Thu, 27 Jan 2022 18:53:22 GMT)
    • 画像+言語理解が必要なタスクに対して、多言語でのデータセット・ベンチマークの提案。一部タスクには日本語が含まれているのがうれしい。
    • 現状は翻訳エンジンを介する方がマルチリンガルモデルによるzero shotを上回るようでちょっと残念(翻訳モデル開発者としてはうれしいが、未来感がない)

VRT(Video Restoration Transformer)

  • VRT: A Video Restoration Transformer [126.8]
    ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。 並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
    論文  参考訳(メタデータ)   (Fri, 28 Jan 2022 17:54:43 GMT)

Megatron-Turing NLG: 530Bの言語モデル

  • Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model [35.8]
    本稿では,最大のモノリシックトランスフォーマーベース言語モデルMegatron-Turing NLG 530B(MT-NLG)のトレーニングについて述べる。 MT-NLGは,いくつかのNLPベンチマークにおいて,ゼロ,ワンショット,少数ショットの学習精度が向上し,新たな最先端結果が得られた。
    論文  参考訳(メタデータ)   (Fri, 28 Jan 2022 08:59:57 GMT)
    • 2ページ目の「Figure 1: Trend of sizes of state-of-the-art NLP models with time.」からも順調(?)にモデルサイズが大きくなっていることが分かる。学習用のシステム構成は560 ノードのDGX A100、1ノードあたり 8つの NVIDIA 80-GB A100 GPU、ピーク性能は1.4 exaFLOP/s (16-bit precision)とすごい。

DrugOOD: AI支援創薬のためのベンチマーク

  • DrugOOD: Out-of-Distribution (OOD) Dataset Curator and Benchmark for AI-aided Drug Discovery — A Focus on Affinity Prediction Problems with Noise Annotations [90.3]
    我々は、AI支援薬物発見のための体系的なOODデータセットキュレーターおよびベンチマークであるDrugOOD を提案する。 DrugOODには、ベンチマークプロセスを完全に自動化するオープンソースのPythonパッケージが付属している。 我々は、薬物標的結合親和性予測という、AIDDにおける最も重要な問題の1つに焦点を当てる。
    論文  参考訳(メタデータ)   (Mon, 24 Jan 2022 12:32:48 GMT)

Vision Checklist: 堅牢性評価のためのチェックリスト

  • Vision Checklist: Towards Testable Error Analysis of Image Models to Help System Designers Interrogate Model Capabilities [26.2]
    Vision Checklistは、堅牢性評価のためにシステムデザイナが使用可能なレポートを生成するために、モデルの能力を疑うためのフレームワークである。 我々のフレームワークは、Tinyimagenet、CIFAR10、CIFAR100、Camelyon17のような複数のデータセットと、ViTやResnetのようなモデルで評価されている。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 27 Jan 2022 17:20:16 GMT)
    • 画像系モデルの堅牢性を評価するフレームワークの提案。論文中の「Due to the high uncertainty in deployment environments, measures based on a small set of hold-out data are not enough for model evaluation.」という指摘の通り、テストセットによる評価だけでは社会実装には不十分でモデルの能力を疑う(限界を知っておく)のはとても重要。
    • ソースコードなどは公開予定とのこと。

顔検出における学術モデルと商用モデルの比較

  • Are Commercial Face Detection Models as Biased as Academic Models? [64.7]
    我々は学術的および商業的な顔検出システムを比較し、特にノイズに対する堅牢性について検討する。 最新の学術的顔検出モデルでは, 高齢者や男性的に性別を呈示する人に対して, 統計的に有意なパフォーマンス低下がみられ, ロバスト性に差があることが判明した。 商用モデルは、常に学術モデルと同じくらいの偏り、あるいはより偏りがある、と結論付けます。
    論文  参考訳(メタデータ)   (Tue, 25 Jan 2022 02:21:42 GMT)
    • Face Detectionタスクの頑健性についてでアカデミックなモデルと商用のモデルを比較、商用モデルが明確に優れているとは言えないと指摘した論文。
    • テクノロジーは似ているわけでそうだろうなと思いつつ、商用モデルの方が(fairnessなど重要な問題につながる)頑健性には気を使うべきであるとは思う。