A Systematic Study of Bias Amplification [16.2] 近年の研究では、機械学習モデルによる予測は、トレーニングデータに存在するバイアスを増幅することができることが示唆されている。 我々は、バイアス増幅の発生時期と発生状況について、初めて体系的に制御された研究を行う。 論文参考訳(メタデータ) (Thu, 27 Jan 2022 18:04:24 GMT)
A Dataset for Medical Instructional Video Classification and Question Answering [16.7] 本稿では,医療ビデオの理解を支援するシステム設計に向けた新たな課題とデータセットについて紹介する。 医療ビデオは多くの救急、救急、医療教育に関する質問に対して、可能な限りの回答を提供するだろうと信じています。 我々は,MedVidCLとMedVidQAデータセットを用いて各タスクをベンチマークし,マルチモーダル学習手法を提案する。 論文参考訳(メタデータ)参考訳(全文) (Sun, 30 Jan 2022 18:06:31 GMT)
IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages [87.5] 画像認識言語理解評価ベンチマークについて紹介する。iglueは、既存のデータセットを集約し、visual question answering, cross-modal retrieval, grounded reasoning, grounded entailmentタスクを20の多様な言語にまたがって作成する。 評価結果から, translate-test transferがゼロショット転送よりも優れていること, fewショット学習が多くのタスクに役立てることが困難であることが判明した。 論文参考訳(メタデータ) (Thu, 27 Jan 2022 18:53:22 GMT)
VRT: A Video Restoration Transformer [126.8] ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。 並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。 論文参考訳(メタデータ) (Fri, 28 Jan 2022 17:54:43 GMT)
Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model [35.8] 本稿では,最大のモノリシックトランスフォーマーベース言語モデルMegatron-Turing NLG 530B(MT-NLG)のトレーニングについて述べる。 MT-NLGは,いくつかのNLPベンチマークにおいて,ゼロ,ワンショット,少数ショットの学習精度が向上し,新たな最先端結果が得られた。 論文参考訳(メタデータ) (Fri, 28 Jan 2022 08:59:57 GMT)
DrugOOD: Out-of-Distribution (OOD) Dataset Curator and Benchmark for AI-aided Drug Discovery — A Focus on Affinity Prediction Problems with Noise Annotations [90.3] 我々は、AI支援薬物発見のための体系的なOODデータセットキュレーターおよびベンチマークであるDrugOOD を提案する。 DrugOODには、ベンチマークプロセスを完全に自動化するオープンソースのPythonパッケージが付属している。 我々は、薬物標的結合親和性予測という、AIDDにおける最も重要な問題の1つに焦点を当てる。 論文参考訳(メタデータ) (Mon, 24 Jan 2022 12:32:48 GMT)
Vision Checklist: Towards Testable Error Analysis of Image Models to Help System Designers Interrogate Model Capabilities [26.2] Vision Checklistは、堅牢性評価のためにシステムデザイナが使用可能なレポートを生成するために、モデルの能力を疑うためのフレームワークである。 我々のフレームワークは、Tinyimagenet、CIFAR10、CIFAR100、Camelyon17のような複数のデータセットと、ViTやResnetのようなモデルで評価されている。 論文参考訳(メタデータ)参考訳(全文) (Thu, 27 Jan 2022 17:20:16 GMT)
画像系モデルの堅牢性を評価するフレームワークの提案。論文中の「Due to the high uncertainty in deployment environments, measures based on a small set of hold-out data are not enough for model evaluation.」という指摘の通り、テストセットによる評価だけでは社会実装には不十分でモデルの能力を疑う(限界を知っておく)のはとても重要。
Are Commercial Face Detection Models as Biased as Academic Models? [64.7] 我々は学術的および商業的な顔検出システムを比較し、特にノイズに対する堅牢性について検討する。 最新の学術的顔検出モデルでは, 高齢者や男性的に性別を呈示する人に対して, 統計的に有意なパフォーマンス低下がみられ, ロバスト性に差があることが判明した。 商用モデルは、常に学術モデルと同じくらいの偏り、あるいはより偏りがある、と結論付けます。 論文参考訳(メタデータ) (Tue, 25 Jan 2022 02:21:42 GMT)
Face Detectionタスクの頑健性についてでアカデミックなモデルと商用のモデルを比較、商用モデルが明確に優れているとは言えないと指摘した論文。