動画ー3次元メッシュのデータセット

  • SAIL-VOS 3D: A Synthetic Dataset and Baselines for Object Detection and 3D Mesh Reconstruction from Video Data [124.3]
    sail-vos 3d: フレーム毎のメッシュアノテーションを備えた合成ビデオデータセット。 また,時間モデルによる映像データから3次元メッシュを再構成するための最初のベースラインを開発した。
    論文  参考訳(メタデータ)   (Tue, 18 May 2021 15:42:37 GMT)
    • 時間方向も使って動画像からオブジェクト認識をするのは自然な発想。こういうこともできるようになってきたのだと感慨深い。
    • http://sailvos.web.illinois.edu/_site/index.html で公開予定とのこと。

会話ドメインのQAデータセット

  • QAConv: Question Answering on Informative Conversations [85.3]
    本稿では,会話を知識源として利用するQAデータセットであるQAConvを紹介する。 ビジネスメールやパネルディスカッション,作業チャネルなど,情報的な会話に重点を置いています。 合計で、スパンベース、フリーフォーム、および回答不能な質問を含む34,204のQAペアを収集します。
    論文  参考訳(メタデータ)   (Fri, 14 May 2021 15:53:05 GMT)
    • 会話をベースとしたQuestion Answering、1万会話、3万QAと結構な数がある。githubのリーダーボードが盛り上がるか&その手法を要チェック。
    • https://github.com/salesforce/QAConv

コンテキスト対応の機械翻訳

  • Do Context-Aware Translation Models Pay the Right Attention? [61.3]
    コンテキスト対応機械翻訳モデルは文脈情報を活用するように設計されているが、しばしば失敗する。 本稿では,人間の翻訳者が曖昧な単語を解くために使用する文脈について述べる。 SCAT(Supporting Context for Ambiguous Translations)は、14K翻訳のコンテキストワードをサポートする新しい英仏データセットです。 SCATを用いて,支援語の位置的特徴と語彙的特徴をあいまいにするために使用される文脈を詳細に分析する。
    論文  参考訳(メタデータ)   (Fri, 14 May 2021 17:32:24 GMT)
    • 機械翻訳における文脈の取り込みの研究とSCAT(Supporting Context for Ambiguous Translations)データセットの紹介
    • 現時点ではデータセットは公開されていない?

Book Corpusのデータシート

  • Addressing “Documentation Debt” in Machine Learning Research: A Retrospective Datasheet for BookCorpus [1.3]
    BookCorpusは、大規模な言語モデルをトレーニングするための人気のテキストデータセットです。 BookCorpusは多くの書籍の著作権制限に違反している。 BookCorpusはジャンル表現において大きな歪みを見せている。
    論文  参考訳(メタデータ)   (Tue, 11 May 2021 17:59:23 GMT)
    • Book Corpusデータセットの問題を指摘する論文。正直、ライセンス的に大丈夫か不安になるデータセットは少なくないので注意すべき内容。

理由を説明するベンチマーク・モデル

  • e-ViL: A Dataset and Benchmark for Natural Language Explanations in Vision-Language Tasks [52.9]
    説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。 また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。 画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
    論文  参考訳(メタデータ)   (Sat, 8 May 2021 18:46:33 GMT)
    • 画像+自然言語の予測に対して、その理由を説明するためのデータセットとモデル。例えば、「人がぬいぐるみのライオンを抱えている画像」「男性はリアルなライオンを抱えている」「矛盾」という組み合わせに対し「説明:ぬいぐるみのライオンはリアルのライオンではない」がペアになっているよう。
    • https://github.com/maximek3/e-ViL

絵文字の変遷

  • Semantic Journeys: Quantifying Change in Emoji Meaning from 2012-2018 [66.3]
    絵文字のセマンティクスが時間とともにどのように変化するかに関する最初の縦断的研究を行い、計算言語学から6年間のtwitterデータに適用した。 絵文字のセマンティックな発達において5つのパターンを識別し、抽象的な絵文字がより少ないほど意味的変化を起こす可能性が高くなることを示す。 絵文字とセマンティクスに関する今後の作業を支援するために、私たちは、絵文字のセマンティックな変化を調べるために誰でも使用できるウェブベースのインターフェイスとともに、データを公開します。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 4 May 2021 08:28:06 GMT)

動画生成GODIVA

  • GODIVA: Generating Open-DomaIn Videos from nAtural Descriptions [45.6]
    テキストから動画を自動レグレッシブに生成できるオープンドメインのテキスト・トゥ・ビデオプリトレーニングモデル「GODIVA」を提案する。 Howto100Mは、1億1600万以上のテキストビデオペアを含む大規模なテキストビデオデータセットです。 実験により、GODIVAは下流のビデオ生成タスクでファインチューニングできるだけでなく、初見のテキストでも優れたゼロショット機能を持つことが示された。
    論文  参考訳(メタデータ)   (Fri, 30 Apr 2021 07:40:35 GMT)
    • テキストからの動画生成に関する論文。この手のモデルの高機能が進んでいる。ここでは(も)正しい評価は課題のよう。CLIPを用いた評価戦略に有効性が認められたのはBERT系手法を評価に用いる自然言語処理に似ている。ソースコード等は今後公開とのこと。

Infographic QAデータセット

  • InfographicVQA [31.1]
    InfographicVQAは、さまざまなインフォグラフィックコレクションと自然言語の質問と回答アノテーションを含む、新しいデータセットである。 基本推論と基本算術スキルを必要とする質問に重点を置いたデータセットをキュレートする。 データセット、コード、およびリーダーボードはhttp://docvqa.orgで入手できる。
    論文  参考訳(メタデータ)   (Mon, 26 Apr 2021 17:45:54 GMT)
    • かなり解くのが難しい問題に思えるデータセットだが、2020年のチャレンジではそれなりのスコアが出ているのが凄い。https://icdar2021.org/で行われるチャレンジ用。

大規模QAデータセット、大規模ビデオデータセット

  • GooAQ: Open Question Answering with Diverse Answer Types [63.1]
    さまざまな回答型を持つ大規模データセットであるGooAQを紹介する。 このデータセットには500万の質問と300万の回答が含まれている。
    論文  参考訳(メタデータ)   (Sun, 18 Apr 2021 05:40:39 GMT)
    • Googleから抽出されたQAデータセット。規約的にこのようなことをやってよいのか疑問ではあるが、貴重なデータであることは確か。
    • https://github.com/allenai/gooaq
  • Understanding Chinese Video and Language via Contrastive Multimodal Pre-Training [79.9]
    VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。 VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 19 Apr 2021 15:58:45 GMT)
    • 中国語の大規模ビデオ+言語データセット
    • 中国語のデータセット構築も非常に盛んな印象がある。

データセット(要約、マルチリンガルベンチマーク)、シミュレーションtoリアル

  • XTREME-R: Towards More Challenging and Nuanced Multilingual Evaluation [93.8]
    本稿では,言語間移動学習の現状を解析する。 XTREMEを10種類の自然言語理解タスクからなるXTREME-Rに拡張する。
    論文  参考訳(メタデータ)   (Thu, 15 Apr 2021 12:26:12 GMT)
    • マルチリンガルなベンチマークXTREMEの拡張版。現在、XTREMEの上位は中国の企業が多い。日本の企業にも頑張ってほしいところ。
  • MS2: Multi-Document Summarization of Medical Studies [11.4]
    MS2(Multi-Document Summarization of Medical Studies)は、科学文献から得られた470k以上の文書と20kの要約からなるデータセットです。 このデータセットは、矛盾する証拠を複数の研究で評価し集約するシステムの開発を促進する。 早期成果を期待して,BARTに基づく要約システムを実験した。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 15 Apr 2021 16:09:21 GMT)
  • Auto-Tuned Sim-to-Real Transfer [143.4]
    シミュレーションで訓練されたポリシーは、しばしば現実世界に移されるときに失敗する。 ドメインのランダム化のようなこの問題に取り組む現在のアプローチには、事前の知識とエンジニアリングが必要である。 実世界に合わせてシミュレータシステムパラメータを自動的にチューニングする手法を提案する。
    論文  参考訳(メタデータ)   (Thu, 15 Apr 2021 17:59:55 GMT)
    • シミュレーションと現実をつなぐ研究。強化学習でよく用いられるシミュレーション環境での学習結果を現実環境に適用するための良いアプローチを提案。
    • Training-serving skewも自動検知、自動修正できるようになったりしないのかなと思う最近。ドメインシフト検知等の研究は多いのでどうにかなる時代が来るかもと期待。