動画ー3次元メッシュのデータセット

  • SAIL-VOS 3D: A Synthetic Dataset and Baselines for Object Detection and 3D Mesh Reconstruction from Video Data [124.3]
    sail-vos 3d: フレーム毎のメッシュアノテーションを備えた合成ビデオデータセット。 また,時間モデルによる映像データから3次元メッシュを再構成するための最初のベースラインを開発した。
    論文  参考訳(メタデータ)   (Tue, 18 May 2021 15:42:37 GMT)
    • 時間方向も使って動画像からオブジェクト認識をするのは自然な発想。こういうこともできるようになってきたのだと感慨深い。
    • http://sailvos.web.illinois.edu/_site/index.html で公開予定とのこと。

Self-attentionは重要でない?

  • Pay Attention to MLPs [84.5]
    gMLP はキー言語やアプリケーションで Transformer と同等に動作可能であることを示す。 我々の比較では、gMLPが同じ精度を達成できるため、ビジョントランスフォーマーには自己注意が重要でないことが示されている。 一般的な実験では、gMLPはデータと計算量を増やして、Transformerと同様にスケール可能である。
    論文  参考訳(メタデータ)   (Mon, 17 May 2021 17:55:04 GMT)
    • 「Are Pre-trained Convolutions Better than Pre-trained Transformers? (このBlogの記事)」と似たような話だが、一定規模・計算量があればTransformerだからという優位性はないのかも。

会話ドメインのQAデータセット

  • QAConv: Question Answering on Informative Conversations [85.3]
    本稿では,会話を知識源として利用するQAデータセットであるQAConvを紹介する。 ビジネスメールやパネルディスカッション,作業チャネルなど,情報的な会話に重点を置いています。 合計で、スパンベース、フリーフォーム、および回答不能な質問を含む34,204のQAペアを収集します。
    論文  参考訳(メタデータ)   (Fri, 14 May 2021 15:53:05 GMT)
    • 会話をベースとしたQuestion Answering、1万会話、3万QAと結構な数がある。githubのリーダーボードが盛り上がるか&その手法を要チェック。
    • https://github.com/salesforce/QAConv

映像内のシーン効果(影、反射、生成された煙など)

  • Omnimatte: Associating Objects and Their Effects in Video [100.7]
    映像内のオブジェクトに関連するシーン効果は通常、コンピュータビジョンによって見過ごされる。 本研究では,映像におけるオブジェクトとその効果を自動的に関連付ける,この新しい問題を解決するための一歩を踏み出す。 私達のモデルは手動ラベルなしで自己監督された方法で入力ビデオでだけ訓練され、ジェネリックです—任意目的およびいろいろな効果のためのオムニマトを自動的に作り出します。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 14 May 2021 17:57:08 GMT)
    • 画像判定等で無視されがちな影など関連する効果を扱う論文。動画編集などで物体を削除する・差し替える際など、実アプリケーションでも有用そう。
    • https://omnimatte.github.io/ の動画が分かりやすい。

コンテキスト対応の機械翻訳

  • Do Context-Aware Translation Models Pay the Right Attention? [61.3]
    コンテキスト対応機械翻訳モデルは文脈情報を活用するように設計されているが、しばしば失敗する。 本稿では,人間の翻訳者が曖昧な単語を解くために使用する文脈について述べる。 SCAT(Supporting Context for Ambiguous Translations)は、14K翻訳のコンテキストワードをサポートする新しい英仏データセットです。 SCATを用いて,支援語の位置的特徴と語彙的特徴をあいまいにするために使用される文脈を詳細に分析する。
    論文  参考訳(メタデータ)   (Fri, 14 May 2021 17:32:24 GMT)
    • 機械翻訳における文脈の取り込みの研究とSCAT(Supporting Context for Ambiguous Translations)データセットの紹介
    • 現時点ではデータセットは公開されていない?

クエリーベースのビデオ要約

  • DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video Summarization [127.2]
    DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。 DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。 MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
    論文  参考訳(メタデータ)   (Thu, 13 May 2021 17:33:26 GMT)
    • 究極的なマルチモーダルであると同時に、強化学習のフレームワークを利用して性能を出している点が興味深い。

FedXGB

  • An Efficient Learning Framework For Federated XGBoost Using Secret Sharing And Distributed Optimization [47.7]
    XGBoostは、より優れた学習精度と効率のため、業界で最も広く使われている機械学習モデルの1つである。本稿では,xgboostの分割基準計算プロセスをシークレット共有設定で再構成するセキュリティ保証とともに,マルチパーティフェデレーションxgb学習フレームワークを提案する。 注目すべきは、モデルセキュリティの徹底的な分析も提供され、複数の数値結果が提案されたFedXGBの優位性を示しています。
    論文  参考訳(メタデータ)   (Wed, 12 May 2021 15:04:18 GMT)
    • 連合学習型の拡張を行ったXGB。特性が分かっている(使い慣れた)ものをベースとして拡張されたFrameworkはありがたい。

Book Corpusのデータシート

  • Addressing “Documentation Debt” in Machine Learning Research: A Retrospective Datasheet for BookCorpus [1.3]
    BookCorpusは、大規模な言語モデルをトレーニングするための人気のテキストデータセットです。 BookCorpusは多くの書籍の著作権制限に違反している。 BookCorpusはジャンル表現において大きな歪みを見せている。
    論文  参考訳(メタデータ)   (Tue, 11 May 2021 17:59:23 GMT)
    • Book Corpusデータセットの問題を指摘する論文。正直、ライセンス的に大丈夫か不安になるデータセットは少なくないので注意すべき内容。

理由を説明するベンチマーク・モデル

  • e-ViL: A Dataset and Benchmark for Natural Language Explanations in Vision-Language Tasks [52.9]
    説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。 また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。 画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
    論文  参考訳(メタデータ)   (Sat, 8 May 2021 18:46:33 GMT)
    • 画像+自然言語の予測に対して、その理由を説明するためのデータセットとモデル。例えば、「人がぬいぐるみのライオンを抱えている画像」「男性はリアルなライオンを抱えている」「矛盾」という組み合わせに対し「説明:ぬいぐるみのライオンはリアルのライオンではない」がペアになっているよう。
    • https://github.com/maximek3/e-ViL

Transformer vs CNN

  • Are Pre-trained Convolutions Better than Pre-trained Transformers? [42.3]
    CNNベースの事前学習モデルは競争力があり、特定のシナリオではTransformerよりも優れています。 本稿で概説した知見は,事前学習とアーキテクチャの進歩が混在していることを示唆している。
    論文  参考訳(メタデータ)   (Fri, 7 May 2021 15:13:30 GMT)
    • 事前学習を用いた学習でCNNの方がTransformerより優れていることがあるとの報告。Transformer一択という今の雰囲気に一石を投じる内容。