2021年12月13日 – arXiv最新論文の紹介

Tell me why!: AI（強化学習エージェント）も説明から恩恵を受ける

Tell me why! — Explanations support learning of relational and causal structure [24.4]
説明は人間の学習において重要な役割を担い、特にAIにとって大きな課題が残る分野においてである。我々は、強化学習エージェントが説明の恩恵を受ける可能性があることを示す。我々の結果は、説明からの学習が強力な原則であり、より堅牢で一般的な機械学習システムのトレーニングに有望な道筋を提供することを示唆している。
論文参考訳（メタデータ） (Wed, 8 Dec 2021 12:48:22 GMT)
- 「説明」が強化学習のエージェントに恩恵を与えるかを検証した論文。エージェントは「説明」を予測することでその情報を取り入れるとの設定。「説明」はエージェントが簡単な特徴を好むバイアスの回避、あいまいな経験から分布外への一般化、因果構造を特定に効果があるとしている。

Grounded Language-Image Pre-training [107.7]
本稿では,オブジェクトレベル,言語認識,意味豊かな視覚表現を学習するための言語画像事前学習(GLIP)モデルを提案する。実験では、3Mの人間アノテーションと2400万のウェブクローリング画像テキストペアを含む2700万のグラウンドデータに対してGLIPを事前トレーニングした。学習された表現は、様々なオブジェクトレベルの認識タスクに対して強いゼロショットと少数ショットの転送可能性を示す。
論文参考訳（メタデータ） (Tue, 7 Dec 2021 17:47:50 GMT)
- オブジェクト検出とフレーズ接地に対する事前学習モデルの提案。COCOとLVISにおいてゼロショットでも多くの教師有りベースラインを上回り、fine tuning後ではSoTAとのこと。prompt tuning等もできるらしく、コードとモデルも公開予定とのことで期待大。
  - ただ、COCOはFlorence-CoSwin-Hの方が上に見える
- リポジトリはGitHub – microsoft/GLIP: Grounded Language-Image Pre-training

Human Parity on CommonsenseQA: Augmenting Self-Attention with External Attention [66.9]
本稿では,外部の知識や状況に配慮した外部アテンション機構を備えたトランスフォーマーアーキテクチャの強化を提案する。提案した外部注意機構は,既存のAIシステムの性能を大幅に向上させることができる。提案システムは、オープンなCommonsenseQA研究ベンチマークにおいて、89.4%の精度で人間の88.9%に匹敵する。
論文参考訳（メタデータ） (Mon, 6 Dec 2021 18:59:02 GMT)
- Knowledge Graph、Dictionary、Training Dataを外部知識として活用可能な構造を提案、CommonsenseQAで89.4%と人の精度に匹敵する性能を達成。
- リーダーボードは Leaderboard | tau-nlp

FLAVA: A Foundational Language And Vision Alignment Model [63.2]
最先端のビジョンとヴィジュアル・アンド・ランゲージモデルは、様々な下流タスクで優れたパフォーマンスを得るために、大規模な視覚言語事前訓練に依存している。このようなモデルとしてFLAVAを導入し、これらの目標モダリティにまたがる35のタスクにおいて、印象的なパフォーマンスを示す。
論文参考訳（メタデータ）参考訳（全文） (Wed, 8 Dec 2021 18:59:16 GMT)
- 公開データセットを用いて言語/画像の事前学習モデルを構築。類似モデルよりも少ないデータ量であるが優れたパフォーマンスを達成とのこと。