SocialAI: 社会的スキルのためのベンチマーク

  • SocialAI: Benchmarking Socio-Cognitive Abilities in Deep Reinforcement Learning Agents [23.7]
    人間との社会的相互作用に参加することができる、具体化された自律エージェントを構築することは、AIの主要な課題の1つだ。 人間レベルのAIを目指すためには、より広範な社会的スキルが必要である、と私たちは主張する。 DRLエージェントの社会的スキル獲得を評価するためのベンチマークであるSocialAIを提案する。
    論文  参考訳(メタデータ)   (Fri, 2 Jul 2021 10:39:18 GMT)
  • DRL(Deep Reinforcement Learning)のための社会的スキル獲得を評価するベンチマーク。Intertwinded multimodality、 Theory of Mind(ToM)、 Pragmatic framesといったソーシャルスキルに関連するタスクを設定。
  • 詳細はhttps://sites.google.com/view/socialaiから確認可能

CLIP-It!: 言葉でのクエリを用いたビデオ要約

  • CLIP-It! Language-Guided Video Summarization [96.7]
    この作業では、一般的性とクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。 本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。 本モデルは教師なしの設定に拡張することができる。 標準ビデオ要約データセット (tvsum と summe) とクエリ指向ビデオ要約データセット (qfvs) の両方において,ベースラインと先行作業とを有意差で上回っている。 本手法は強い一般化能力を示すため,転送設定の大幅な改善を実現した。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 1 Jul 2021 17:59:27 GMT)
    • ビデオの各フレームをキャプショニング、スコアリングしてフレームからキーショットを選択。エンコーディングにCLIPを利用すると優れた性能が出せるとのこと。

機械学習・MLOpsに関するアンチパターン

  • Using AntiPatterns to avoid MLOps Mistakes [14.7]
    アンチパターンは、欠陥のあるプラクティスや方法論の情報を提供する。 いくつかのアンチパターンは技術的な誤りによるものであり、他のパターンは周囲の文脈について十分な知識を持っていないためである。 アンチパターンのカタログ化に加えて、ソリューション、ベストプラクティス、MLOpsの成熟に向けた今後の方向性について説明します。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 30 Jun 2021 20:00:52 GMT)
    • アンチパターンが9つ紹介されている。実用上重要・実務で見かけるものも多いなーと思うとともに、アカデミックな研究で見られるパターンもある。
    • 設計に関わるアンチパターン
      • Data Leakage: 不適切データの使用、不適切なデータ拡張
      • Tuning-under-the-Carpet: ハイパーパラメータの不適切な管理
    • 性能評価に関わるアンチパターン
      • PEST(Perceived Empirical SuperioriTy): 実証的な検証が不十分
      • Bad Credit Assignment: パフォーマンス向上の理由が不明確
      • Grade-Your-own-Exam: モデル開発中の最終テスト用データへのアクセス
    • デプロイ・メンテナンスに関わるアンチパターン
      • Act Now, Reflect Never: モデルのモニタリングをせずそのまま使い続ける
      • Set & Forget: 環境変化(concept driftのようなもの)への対応をしない
      • Communicate with Ambivalence: モデルの不確実性(uncertainty)を把握・共有しない
      • Data Crisis as a Service: データ抽出や処理の手順を記録・管理しない

AutoFormer: Transformerのアーキテクチャサーチ

  • AutoFormer: Searching Transformers for Visual Recognition [97.6]
    本稿では,視覚トランスフォーマー検索専用のワンショットアーキテクチャ検索フレームワークであるAutoFormerを提案する。 AutoFormerは、スーパーネットトレーニング中に同じレイヤ内の異なるブロックの重みを絡み合わせる。 我々は、AutoFormer-tiny/small/baseが5.7M/22.9M/53.7Mパラメータを持つImageNetで74.7%/81.7%/82.4%のtop-1精度を達成したことを示す。
    論文  参考訳(メタデータ)   (Thu, 1 Jul 2021 17:59:30 GMT)
    • 画像を対象としたTransformerで効率的なアーキテクチャサーチを行うという論文。少ないパラメータで優れた性能を出せる。
    • コード等はhttps://github.com/microsoft/automlから参照可能なるとのこと。

Cross-lingual Transferにおける英語以外の有効性

  • Revisiting the Primacy of English in Zero-shot Cross-lingual Transfer [39.4]
    ゼロショット・クロスランガル・トランスファーは実用的な解決策として浮上している。 人気のあるゼロショットベンチマークによって強化されたように、英語は転送のための主要なソース言語である。 ドイツ語やロシア語のような他の高リソース言語は、より効果的に転送されることがよくあります。
    論文  参考訳(メタデータ)   (Wed, 30 Jun 2021 16:05:57 GMT)
    • ゼロショットで多言語モデルを構築する場合は英語をベースにすることが多いがドイツ語やロシア語が有効なことがあるという興味深い報告。特にターゲットの言語が多様な場合に有効とのこと。機械翻訳を行ってなお有効とのことで意外な結果。事前学習モデルの性質なのか、言語特性によるものなのか非常に面白い。

XLM-E: ELECTRA型の事前学習モデル

  • XLM-E: Cross-lingual Language Model Pre-training via ELECTRA [46.8]
    我々は,多言語コーパスと並列コーパスの両方で,XLM-Eという名前のモデルを事前学習する。 我々のモデルは、様々な言語間理解タスクにおけるベースラインモデルよりもはるかに低コストで性能を向上する。
    論文  参考訳(メタデータ)   (Wed, 30 Jun 2021 15:45:07 GMT)
    • 計算コストの低い事前学習モデル。XQuADやPAWS-Xなどcross lingualなタスクで100倍の計算コストがかかるXLM_Rを超える優れた性能。
    • Microsoftの成果。そのうち、https://github.com/microsoft/unilm にコードが公開されたりするのだろうか。

AutoNovel: 新しいクラスの発見

  • AutoNovel: Automatically Discovering and Learning Novel Visual Categories [138.8]
    一部のクラスをラベル付けしたイメージコレクションにおける新しいクラス発見問題に対処するため,AutoNovelと呼ばれる新しいアプローチを提案する。 我々はAutoNovelを標準分類ベンチマークで評価し、新しいカテゴリー発見の手法をかなり上回っている。
    論文  参考訳(メタデータ)   (Tue, 29 Jun 2021 11:12:16 GMT)
    • モデル構築済みの条件下で新たなクラスを発見する研究。ラベル付きデータ+ラベル無しデータでself-supervised learning、ラベル付きデータでモデル構築、このモデルをラベル無しデータのクラスタリングに利用、新たなクラス数の推定というステップのよう。
    • コード等はhttps://www.robots.ox.ac.uk/~vgg/research/auto_novel/から確認可能。

Neural Speech Synthesisのサーベイ

  • A Survey on Neural Speech Synthesis [110.4]
    テキスト・トゥ・スピーチ(TTS)は、音声、言語、機械学習のコミュニティにおけるホットな研究テーマである。 我々は、現在の研究と今後のトレンドをよく理解することを目的として、ニューラルTTSに関する包括的な調査を行っている。 我々は、テキスト分析、音響モデル、ボコーダなど、ニューラルネットワークの重要なコンポーネントと、高速TTS、低リソースTTS、堅牢TTS、表現型TTS、適応型TTSなど、いくつかの先進的なトピックに焦点を当てる。
    論文  参考訳(メタデータ)   (Tue, 29 Jun 2021 16:50:51 GMT)
    • 全63ページ、引用数447と幅広いサーベイでText to Speechを概観するために非常に良い論文。Text to Speechの歴史から始まりその構成要素や特にニューラル系モデルの分類とその内容が説明されており、高度化の流れや将来の方向性を知る上でも素晴らしい内容だと思う。オープンな実装やコーパスなどリソースのまとめもありがたい。

TWAG(Topic-guided Wikipedia Abstract Generator ): トピックガイド付きウィキペディア抽象要約生成

  • TWAG: A Topic-Guided Wikipedia Abstract Generator [23.9]
    Wikipediaの抽象生成は、webソースからwikipediaの要約を蒸留することを目的としており、マルチドキュメント要約技術を採用することで大きな成功を収めている。 それまでの著作では、抽象概念を平易なテキストとみなしており、要約があるエンティティを説明し異なるトピックに分解できるという事実を無視している。 本稿では,トピック情報を用いた2段階モデルTWAGを提案する。
    論文  参考訳(メタデータ)   (Tue, 29 Jun 2021 07:42:08 GMT)
    • パラグラフとそのトピック情報を用い、トピックに応じた要約をすることでWikiCatSum datasetにおいてBARTなどより優れた結果を出したとの報告。
    • ソース等はhttps://github.com/THU-KEG/TWAGから参照可能。

Visual Parsing with Self-Attention for Vision-Language Pre-training

  • Probing Inter-modality: Visual Parsing with Self-Attention for Vision-Language Pre-training [139.5]
    Vision-Language Pre-Trainingは、画像とテキストのペアからマルチモーダル表現を学ぶことを目的としている。 CNNは、長距離依存をモデル化する際の局所受容野の弱点により、視覚的関係学習に制限がある。 本研究では,視覚関係をよりよく学習し,モーダル間アライメントを促進するために,VLPのためのフルトランスフォーマー視覚埋め込みを提案する。。
    論文  参考訳(メタデータ)   (Mon, 28 Jun 2021 04:42:48 GMT)
    • マルチモーダルな事前学習モデルのため画像認識部分にもself-attentionを導入、MLM(Masked Language Modeling)、ITM(Image- Text Matching)、MFR(Masked Feature Regression)を活用してモデルを構築し、UNITERSOHOを上回る性能を出したとのこと。