2021年12月16日 – arXiv最新論文の紹介

ViT-BERT: 言語と画像の統一的基礎モデル

Towards a Unified Foundation Model: Jointly Pre-Training Transformers on Unpaired Images and Text [93.1]
我々は、モダリティ固有のトークン化器、共有トランスフォーマーエンコーダ、タスク固有の出力ヘッドからなる統一型トランスフォーマーを設計する。我々は、個別に訓練されたBERTモデルとViTモデルを教師として採用し、知識蒸留を適用して、より正確な監視信号を提供する。実験の結果、統合基盤変換器は視覚のみのタスクとテキストのみのタスクの両方で驚くほどうまく機能することがわかった。
論文参考訳（メタデータ） (Tue, 14 Dec 2021 00:20:55 GMT)
- 画像・言語の両方を取り扱える事前学習モデル構築手法の提案。トークン化と出力部分は個別だが主要な部分は共通という構造。学習に用いる画像とテキストは対となるデータではない。画像のみのタスクCIFAR-10/100・ImageNet、自然言語のみのタスクGLUE双方で優れた結果。

A Framework for Fairness: A Systematic Review of Existing Fair AI Solutions [4.6]
公正性の研究の大部分は、機械学習の実践者がアルゴリズムを設計しながらバイアスを監査するために使用できるツールの開発に費やされている。実際には、これらの公平性ソリューションの応用例が欠如している。このレビューでは、定義されたアルゴリズムバイアス問題と提案された公平問題解決方法の詳細な概要について述べる。
論文参考訳（メタデータ） (Fri, 10 Dec 2021 17:51:20 GMT)
- アルゴリズムバイアスとFairness awareなAIを構築するためのソリューションのサーベイ。

Making a Bird AI Expert Work for You and Me [46.6]
人間がAIから学ぶためのトランスファー可能な知識を構成するものは何か? 本稿では,知識を専門家排他的な高度に識別可能な視覚領域として表現することを提案する。 15,000件の治験を総合的に調査した結果, 飛散する鳥の専門知識を継続的に改善できることがわかった。
論文参考訳（メタデータ）参考訳（全文） (Mon, 6 Dec 2021 02:47:21 GMT)
- 人間が学ぶことにフォーカスして重要部分をハイライトするAIを構築、CUB-Bird200を対象に実験をして有効性を確かめたとのこと。
- リポジトリはGitHub – PRIS-CV/Making-a-Bird-AI-Expert-Work-for-You-and-Me: Code release for “Making a Bird AI Expert Work for You and Me”.　（今はcoming soon）