クエリーベースのビデオ要約

  • DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video Summarization [127.2]
    DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。 DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。 MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
    論文  参考訳(メタデータ)   (Thu, 13 May 2021 17:33:26 GMT)
    • 究極的なマルチモーダルであると同時に、強化学習のフレームワークを利用して性能を出している点が興味深い。

FedXGB

  • An Efficient Learning Framework For Federated XGBoost Using Secret Sharing And Distributed Optimization [47.7]
    XGBoostは、より優れた学習精度と効率のため、業界で最も広く使われている機械学習モデルの1つである。本稿では,xgboostの分割基準計算プロセスをシークレット共有設定で再構成するセキュリティ保証とともに,マルチパーティフェデレーションxgb学習フレームワークを提案する。 注目すべきは、モデルセキュリティの徹底的な分析も提供され、複数の数値結果が提案されたFedXGBの優位性を示しています。
    論文  参考訳(メタデータ)   (Wed, 12 May 2021 15:04:18 GMT)
    • 連合学習型の拡張を行ったXGB。特性が分かっている(使い慣れた)ものをベースとして拡張されたFrameworkはありがたい。

Book Corpusのデータシート

  • Addressing “Documentation Debt” in Machine Learning Research: A Retrospective Datasheet for BookCorpus [1.3]
    BookCorpusは、大規模な言語モデルをトレーニングするための人気のテキストデータセットです。 BookCorpusは多くの書籍の著作権制限に違反している。 BookCorpusはジャンル表現において大きな歪みを見せている。
    論文  参考訳(メタデータ)   (Tue, 11 May 2021 17:59:23 GMT)
    • Book Corpusデータセットの問題を指摘する論文。正直、ライセンス的に大丈夫か不安になるデータセットは少なくないので注意すべき内容。

理由を説明するベンチマーク・モデル

  • e-ViL: A Dataset and Benchmark for Natural Language Explanations in Vision-Language Tasks [52.9]
    説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。 また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。 画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
    論文  参考訳(メタデータ)   (Sat, 8 May 2021 18:46:33 GMT)
    • 画像+自然言語の予測に対して、その理由を説明するためのデータセットとモデル。例えば、「人がぬいぐるみのライオンを抱えている画像」「男性はリアルなライオンを抱えている」「矛盾」という組み合わせに対し「説明:ぬいぐるみのライオンはリアルのライオンではない」がペアになっているよう。
    • https://github.com/maximek3/e-ViL

Transformer vs CNN

  • Are Pre-trained Convolutions Better than Pre-trained Transformers? [42.3]
    CNNベースの事前学習モデルは競争力があり、特定のシナリオではTransformerよりも優れています。 本稿で概説した知見は,事前学習とアーキテクチャの進歩が混在していることを示唆している。
    論文  参考訳(メタデータ)   (Fri, 7 May 2021 15:13:30 GMT)
    • 事前学習を用いた学習でCNNの方がTransformerより優れていることがあるとの報告。Transformer一択という今の雰囲気に一石を投じる内容。

Common Crawlの分析

  • What’s in the Box? An Analysis of Undesirable Content in the Common Crawl Corpus [77.3]
    言語モデルの訓練に広く使用されるwebコーパスであるcommon crawlを分析した。 ヘイトスピーチや性的明示的なコンテンツなど、フィルタリング処理後も、好ましくないコンテンツがかなりの量含まれていることがわかりました。
    論文  参考訳(メタデータ)   (Thu, 6 May 2021 14:49:43 GMT)
    • クリーニングしても残る問題コンテンツ。翻訳エンジン開発でも大きな課題。

AIベースシステムのソフトウェアエンジニアリング

  • Software Engineering for AI-Based Systems: A Survey [8.6]
    AIベースのシステムの構築、運用、保守のためのソフトウェアエンジニアリングのアプローチに関する合成知識は限られています。 AIベースのシステムのためのSEは、2018年以来、研究の2/3以上が出版されている新興研究領域です。 AIベースのシステムの最も研究された特性は信頼性と安全性です。
    論文  参考訳(メタデータ)   (Wed, 5 May 2021 11:22:08 GMT)
    • AIを組み込んだソフトウェアに対するソフトウェアエンジニアリングのサーベイ。50ページ超と長め。

絵文字の変遷

  • Semantic Journeys: Quantifying Change in Emoji Meaning from 2012-2018 [66.3]
    絵文字のセマンティクスが時間とともにどのように変化するかに関する最初の縦断的研究を行い、計算言語学から6年間のtwitterデータに適用した。 絵文字のセマンティックな発達において5つのパターンを識別し、抽象的な絵文字がより少ないほど意味的変化を起こす可能性が高くなることを示す。 絵文字とセマンティクスに関する今後の作業を支援するために、私たちは、絵文字のセマンティックな変化を調べるために誰でも使用できるウェブベースのインターフェイスとともに、データを公開します。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 4 May 2021 08:28:06 GMT)

グラフ構造データ処理のサーベイ

  • Graph Learning: A Survey [38.2]
    本稿では,グラフ学習の現状について概観する。 グラフ信号処理,行列分解,ランダムウォーク,ディープラーニングなど,既存のグラフ学習手法の4つのカテゴリに特に注目されている。 テキスト,画像,科学,知識グラフ,最適化といった分野におけるグラフ学習アプリケーションについて検討する。
    論文  参考訳(メタデータ)   (Mon, 3 May 2021 09:06:01 GMT)
    • グラフ構造データに対するサーベイ論文。多岐にわたるアルゴリズムが考案されていることがわかる。node2vec, struc2vec, graph2vec, hin2vec, metapath2vecと2vec系だけでもいろいろある。

動画生成GODIVA

  • GODIVA: Generating Open-DomaIn Videos from nAtural Descriptions [45.6]
    テキストから動画を自動レグレッシブに生成できるオープンドメインのテキスト・トゥ・ビデオプリトレーニングモデル「GODIVA」を提案する。 Howto100Mは、1億1600万以上のテキストビデオペアを含む大規模なテキストビデオデータセットです。 実験により、GODIVAは下流のビデオ生成タスクでファインチューニングできるだけでなく、初見のテキストでも優れたゼロショット機能を持つことが示された。
    論文  参考訳(メタデータ)   (Fri, 30 Apr 2021 07:40:35 GMT)
    • テキストからの動画生成に関する論文。この手のモデルの高機能が進んでいる。ここでは(も)正しい評価は課題のよう。CLIPを用いた評価戦略に有効性が認められたのはBERT系手法を評価に用いる自然言語処理に似ている。ソースコード等は今後公開とのこと。