DOVE(Deformable Objects from VidEos): 単一2次元画像からの3次元形状の推定(鳥)

  • DOVE: Learning Deformable 3D Objects by Watching Videos [89.4]
    本研究では,鳥の単一2次元画像から3次元標準形状,変形,視点,テクスチャの予測を学習するDOVEを提案する。 本手法は時間的に一貫した3次元形状と変形を再構成し,任意の視点から鳥をアニメーション化し再レンダリングする。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 22 Jul 2021 17:58:10 GMT)
  • 2次元画像から鳥の3次元形状を得る研究でビデオクリップ(+基本形状などの事前知識+パイプライン)を用いてデータ量の問題を改善しようとするもの。デモのビデオが面白い。
  • Videoはhttps://dove3d.github.io/から確認可能。コードもリリース予定とのこと。

データ削減に関する論文

データ削減(重要なデータか否かの仕分けやもっと単純に重複排除)の効果に関連する論文がいくつか出ている。「ニューラル機械翻訳モデルと対訳データの品質」にも関連するが、不要っぽいデータが含まれているデータセットは多い。

  • Distribution of Classification Margins: Are All Data Equal? [61.2]
    最近の理論的結果は、指数損失関数の下でのディープニューラルネットワークの勾配降下が局所的に分類マージンを最大化することを示しており、これはマージン制約の下で重み行列のノルムを最小化するのと同値である。 我々は理論的に動機付け、トレーニングセット上のマージン分布の曲線の下の領域が実際は一般化のよい尺度であることを示す。 次に、データ分離が達成されれば、パフォーマンスを著しく損なうことなく、トレーニングセットを99%以上動的に削減できることを示す。 興味深いことに、得られた”高容量”特徴のサブセットは、異なるトレーニング実行間で一貫性がない。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 21 Jul 2021 16:41:57 GMT)
  • Deep Learning on a Data Diet: Finding Important Examples Early in Training [38.8]
    個別学習例の初期損失勾配基準は、一般化に重要な訓練データの小さな集合を特定するのに有効であることを示す。 本研究では,訓練の早い段階でローカル情報のみを使用するデータ解析手法を提案し,トレーニング中に忘れられることがほとんどない例を捨てることで,データを創出する最近の研究に接続する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 15 Jul 2021 02:12:20 GMT)
  • Deduplicating Training Data Makes Language Models Better [50.2]
    既存の言語モデリングデータセットには、多くのほぼ重複した例と長い反復が含まれている。 これらのデータセットでトレーニングされた言語モデルのプロンプトなしの出力の1%以上が、トレーニングデータからコピーされている。 重複排除により記憶したテキストの出力が10分の1以下になり、同様の精度を少ないステップで達成できる。
    論文  参考訳(メタデータ)   (Wed, 14 Jul 2021 06:06:52 GMT)

Graph Neural Networksの理論的分類・整理

  • Bridging the Gap between Spatial and Spectral Domains: A Theoretical Framework for Graph Neural Networks [40.0]
    グラフニューラルネットワーク(GNN)は、非ユークリッド問題を扱うように設計されたディープラーニングの一種である。 本研究は,既存のGNNを我々のフレームワークに方法論的に統合できる統一理論フレームワークと新たな視点を提案する。 既存のGNNモデルを空間領域とスペクトル領域に分類し,各領域内のサブカテゴリ間のリンクを示す。
    論文  参考訳(メタデータ)   (Wed, 21 Jul 2021 17:34:33 GMT)
    • グラフ構造を扱う手法の理論的整理を行った論文。notaionに慣れると概要把握は早くなるのかなと思いつつ、各種手法の概観を知るために良い資料だと思う。

Query-based Video Highlights (QVHighlights) データセット

  • QVHighlights: Detecting Moments and Highlights in Videos via Natural Language Queries [89.2]
    Query-based Video Highlights (QVHighlights) データセットを提示する。 これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。 データセット内の各ビデオには、(1)人が書いた自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5点満点のsaliencyスコアが注釈付けされている。
    論文  参考訳(メタデータ)   (Tue, 20 Jul 2021 16:42:58 GMT)
    • 自然言語クエリに基づくビデオ検索(シーン検索)のデータセット。1万映像と規模が大きい。ドメインは日常&旅行のvlogとnews。
    • リポジトリはhttps://github.com/jayleicn/moment_detr

MNMT(Multilingual Neural Machine Translation)における冗長部分の活用

  • More Parameters? No Thanks! [43.7]
    多言語ニューラルマシン翻訳MNMTにおけるモデル容量と負の干渉の長期的問題について検討する。 我々はネットワークプルーニング手法を用いて、トレーニングされたMNMTモデルからパラメータの50-70%をプルーニングすると、BLEUスコアの0.29-1.98ドロップしか得られないことを観察する。 我々は,MNMTの冗長なパラメータを反復的に訓練し,多言語性を維持しながらバイリンガル表現を改善する新しい適応戦略を提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 20 Jul 2021 17:04:15 GMT)
    • マルチリンガルなニューラル機械翻訳には冗長なパラメータが多い。著者らはマルチリンガルモデルから50%パラメータを削減したのちに、冗長だったweightを活用するトレーニングを行うことで削減前のモデルからBLEUスコアを改善できたとのこと。
    • コード等はhttps://github.com/zeecoder606/PF-Adaptationで公開予定とのこと。

データ市場の研究

  • Data Sharing Markets [95.1]
    我々は、各エージェントがデータの買い手および売り手の両方になり得る設定について検討する。 両データ交換(データ付きトレーディングデータ)と一方データ交換(お金付きトレーディングデータ)の2つの事例を考察する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 20 Jul 2021 06:31:23 GMT)
    • エージェントがデータを共有・売買する状況でのゲームを研究した論文。歪ませるのが容易(低品質なデータへの加工が容易)というデータの特徴に注目し、Mixed-VCGという名前でVCGメカニズムの拡張している。
    • 本件のような理論を情報銀行のような仕組みに応用できないかなと思ったりしなくはない。

Image Fusion Transformer: Transformerを使ったイメージフュージョン

  • Image Fusion Transformer [75.7]
    画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。 近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。 我々は,画像融合トランスフォーマー (IFT) を提案する。
    論文  参考訳(メタデータ)   (Mon, 19 Jul 2021 16:42:49 GMT)
    • 複数の異なるデータソースからの画像を融合(イメージフュージョン)し情報量の多い一枚の画像にするタスクにおいて、Transformerを使い優れた性能が出せたとの報告。最近よく話題になる局所的な情報と長距離で関係する情報を組み合わせられる構造となっている。

VisDrone-CC2020:ドローンからの群衆カウンティングコンペティション

  • VisDrone-CC2020: The Vision Meets Drone Crowd Counting Challenge Results [186.5]
    私たちは大規模なデータセットを収集し、Vision Meets Drone Crowd Counting Challenge (VisDrone-CC 2020)を組織します。 収集されたデータセットは、トレーニング用の2460の画像と、テスト用の900の画像を含む3360の画像で構成されている。 評価結果を詳細に分析し,課題を結論付ける。
    論文  参考訳(メタデータ)   (Mon, 19 Jul 2021 11:48:29 GMT)
    • VisDrone-CC 2020の結果報告。提案された14個のアルゴリズムを比較検証しておりこの分野の手法と性能を知るうえで良い資料。
    • コンペティションのWEBSITEはhttp://aiskyeye.com/、2021も開催済みのよう。

画像データセットのバイアスに関するサーベイ

  • A Survey on Bias in Visual Datasets [17.8]
    コンピュータビジョン(CV)は、いくつかのタスクにおいて人間よりも優れた成果を上げている。 CVシステムは、供給されるデータに大きく依存し、そのようなデータ内のバイアスを学習し、増幅することができる。 本研究では,視覚データセットの収集中に異なる種類のバイアスを検出できるチェックリストを提案する。
    論文  参考訳(メタデータ)   (Fri, 16 Jul 2021 14:16:52 GMT)
    • 画像を対象にどのようなバイアスがありうるかを調査したサーベイ論文。色々なステップで入りうる多種のバイアスが紹介されており画像に限らず参考になる。24ページのチェックリストは簡潔にまとまっている。どれも重要な問いだと思う。

DANCE(DAta-Network Co-optimization for Efficient segmentation ):

  • DANCE: DAta-Network Co-optimization for Efficient Segmentation Model Training and Inference [85.0]
    DANCEは、効率的なセグメンテーションモデルのトレーニングと推論のための自動データネットワーク協調最適化である。 入力イメージを適応的にダウンサンプル/ドロップする自動データスライミングを統合し、画像の空間的複雑さによって導かれるトレーニング損失に対するそれに対応するコントリビューションを制御する。 実験と非難研究により、DANCEは効率的なセグメンテーションに向けて「オールウィン」を達成できることを示した。
    論文  参考訳(メタデータ)   (Fri, 16 Jul 2021 04:58:58 GMT)
    • 入力イメージのダウンサンプリング&drop(スリム化)+ネットワーク構造の等を含めての最適化(スリム化)を協調して行うことで、計算コストの削減だけでなくネットワーク構造をさらにスリム化できるとの報告。