ICDAR 2021 SVTS(Scene Video Text Spotting)のコンペティション

  • ICDAR 2021 Competition on Scene Video Text Spotting [28.4]
    シーンビデオテキストスポッティング(SVTS)は,多くの実環境応用のために非常に重要な研究課題である。 本稿では,SVTS コンペティションにおける ICDAR 2021 のデータセット記述,タスク定義,評価プロトコル,結果要約について述べる。
    論文  参考訳(メタデータ)   (Mon, 26 Jul 2021 01:25:57 GMT)
    • 動画像からテキストを認識(ビデオテキスト検出やテキストトラッキング)するコンペティションの結果報告。静的なOCRよりも格段に難しいタスク。
    • 全24チームが参加したとのこと。上位チームのアプローチは参考になる。Task3 Tencentのチームのアプローチはてんこ盛り感があって凄い。

IERN(Interventional Emotion Recognition Network): データセットバイアスを軽減した感情認識

  • Towards Unbiased Visual Emotion Recognition via Causal Intervention [63.7]
    本稿では,データセットバイアスによる負の効果を軽減するために,新しい感情認識ネットワーク(IERN)を提案する。 IERNの有効性を検証する一連の設計されたテストと、3つの感情ベンチマークの実験は、IERNが他の最先端のアプローチよりも優れていることを示した。
    論文  参考訳(メタデータ)   (Mon, 26 Jul 2021 10:40:59 GMT)
    • 表情の変化に伴う画像の劣化(ブレやぼやけ)を感情を表す証拠と誤認識するバイアスを避けるため、因果推論のbackdoor adjustmentを実現する新しい介入感情認識ネットワークを提案。因果推論を利用する他のアプローチより優れていることを確認したとのこと。

ニューラル機械翻訳システムを中間に組み込んだNLUモデル

  • Modelling Latent Translations for Cross-Lingual Transfer [47.6]
    従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合する新しい手法を提案する。 我々は,多言語NLUタスクにおける新しい潜時翻訳モデルの評価を行った。 ゼロショットと数ショットの学習設定の両方で、平均2.7の精度ポイントのゲインを報告します。
    論文  参考訳(メタデータ)   (Fri, 23 Jul 2021 17:11:27 GMT)
    • NLU (Natural Language Understanding)タスクを解く際にニューラル機械翻訳を組み込むことでマルチリンガル性を得るモデルの提案。この手のタスクでは(大規模事前学習を行った)マルチリンガルモデルの採用が多いが機械翻訳の組み込みは妥当で効果的な構造のように思える。実際、マルチリンガルなタスクにおけるzero-shot、few-shotの結果も良い。
    • 論文中でMarianのJAに関する精度が著しく悪いのはHelsinki-NLP/Opus-MTの日本語関連のモデルのデータ量が足りていないためと思われる。(FuguMTを作った理由の一つでもある。)

To Ship or Not to ship: 機械翻訳の評価指標

  • To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for Machine Translation [6.0]
    システムレベルの品質ランク付けを行う上で,どの指標が最も精度が高いかを検討する。 BLEUのみの使用は、改善されたモデルの開発に悪影響を及ぼしたことを示す。
    論文  参考訳(メタデータ)   (Thu, 22 Jul 2021 17:22:22 GMT)
    • 機械翻訳モデルが複数あったときにどのモデルをリリースすべきかは悩ましい問題である(FuguMTでも最終的には目検を行った後にリリースモデルを決めている)。この論文では幅広い検証の結果、BLEUは使用すべきではなくCOMET(使用不可の言語の場合はChrF)の使用を推奨している。
    • リポジトリはhttps://github.com/MicrosoftTranslator/ToShipOrNotToShipであり、今後詳細を公開予定とのこと。
    • COMETのリポジトリはhttps://github.com/Unbabel/COMETにある。

COVID-19の感情データセット

  • When a crisis strikes: Emotion analysis and detection during COVID-19 [96.0]
    感情をラベル付けした1万ツイートのCovidEmoを紹介します。 事前学習された言語モデルがドメインや危機をまたいでどのように一般化するかを検討する。
    論文  参考訳(メタデータ)   (Fri, 23 Jul 2021 04:07:14 GMT)
    • COVID-19に関連したtweetをラベル付けしたデータセットCovidEmoの紹介と他のデータセットを用いた場合に転移が可能かを検証、有効でないがドメイン適合により改善可能としている。
    • リポジトリはhttps://github.com/AlexanderTekle/COVIDEmotions

ニューラル機械翻訳における信頼性を考慮したScheduled sampling

  • Confidence-Aware Scheduled Sampling for Neural Machine Translation [25.4]
    ニューラルマシン翻訳のための信頼度を考慮したスケジュールサンプリングを提案する。 モデル予測の信頼性により,実時間モデル能力の定量化を行う。 提案手法は,翻訳品質と収束速度の両方において,トランスフォーマーとバニラのスケジュールサンプリングを著しく上回っている。
    論文  参考訳(メタデータ)  (Thu, 22 Jul 2021 02:49:04 GMT)
    • 翻訳性能を向上させるスケジュールサンプリングの提案。バニラなTransformer(base / big)に比べて WMT14 EN-DE、EN-FR、WMT19 ZH-ENでそれぞれBLEUで1ポイント程度の改善を報告している。
    • コードはhttps://github.com/Adaxry/conf_aware_ss4nmtから参照可能。

DOVE(Deformable Objects from VidEos): 単一2次元画像からの3次元形状の推定(鳥)

  • DOVE: Learning Deformable 3D Objects by Watching Videos [89.4]
    本研究では,鳥の単一2次元画像から3次元標準形状,変形,視点,テクスチャの予測を学習するDOVEを提案する。 本手法は時間的に一貫した3次元形状と変形を再構成し,任意の視点から鳥をアニメーション化し再レンダリングする。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 22 Jul 2021 17:58:10 GMT)
  • 2次元画像から鳥の3次元形状を得る研究でビデオクリップ(+基本形状などの事前知識+パイプライン)を用いてデータ量の問題を改善しようとするもの。デモのビデオが面白い。
  • Videoはhttps://dove3d.github.io/から確認可能。コードもリリース予定とのこと。

データ削減に関する論文

データ削減(重要なデータか否かの仕分けやもっと単純に重複排除)の効果に関連する論文がいくつか出ている。「ニューラル機械翻訳モデルと対訳データの品質」にも関連するが、不要っぽいデータが含まれているデータセットは多い。

  • Distribution of Classification Margins: Are All Data Equal? [61.2]
    最近の理論的結果は、指数損失関数の下でのディープニューラルネットワークの勾配降下が局所的に分類マージンを最大化することを示しており、これはマージン制約の下で重み行列のノルムを最小化するのと同値である。 我々は理論的に動機付け、トレーニングセット上のマージン分布の曲線の下の領域が実際は一般化のよい尺度であることを示す。 次に、データ分離が達成されれば、パフォーマンスを著しく損なうことなく、トレーニングセットを99%以上動的に削減できることを示す。 興味深いことに、得られた”高容量”特徴のサブセットは、異なるトレーニング実行間で一貫性がない。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 21 Jul 2021 16:41:57 GMT)
  • Deep Learning on a Data Diet: Finding Important Examples Early in Training [38.8]
    個別学習例の初期損失勾配基準は、一般化に重要な訓練データの小さな集合を特定するのに有効であることを示す。 本研究では,訓練の早い段階でローカル情報のみを使用するデータ解析手法を提案し,トレーニング中に忘れられることがほとんどない例を捨てることで,データを創出する最近の研究に接続する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 15 Jul 2021 02:12:20 GMT)
  • Deduplicating Training Data Makes Language Models Better [50.2]
    既存の言語モデリングデータセットには、多くのほぼ重複した例と長い反復が含まれている。 これらのデータセットでトレーニングされた言語モデルのプロンプトなしの出力の1%以上が、トレーニングデータからコピーされている。 重複排除により記憶したテキストの出力が10分の1以下になり、同様の精度を少ないステップで達成できる。
    論文  参考訳(メタデータ)   (Wed, 14 Jul 2021 06:06:52 GMT)

Graph Neural Networksの理論的分類・整理

  • Bridging the Gap between Spatial and Spectral Domains: A Theoretical Framework for Graph Neural Networks [40.0]
    グラフニューラルネットワーク(GNN)は、非ユークリッド問題を扱うように設計されたディープラーニングの一種である。 本研究は,既存のGNNを我々のフレームワークに方法論的に統合できる統一理論フレームワークと新たな視点を提案する。 既存のGNNモデルを空間領域とスペクトル領域に分類し,各領域内のサブカテゴリ間のリンクを示す。
    論文  参考訳(メタデータ)   (Wed, 21 Jul 2021 17:34:33 GMT)
    • グラフ構造を扱う手法の理論的整理を行った論文。notaionに慣れると概要把握は早くなるのかなと思いつつ、各種手法の概観を知るために良い資料だと思う。

Query-based Video Highlights (QVHighlights) データセット

  • QVHighlights: Detecting Moments and Highlights in Videos via Natural Language Queries [89.2]
    Query-based Video Highlights (QVHighlights) データセットを提示する。 これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。 データセット内の各ビデオには、(1)人が書いた自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5点満点のsaliencyスコアが注釈付けされている。
    論文  参考訳(メタデータ)   (Tue, 20 Jul 2021 16:42:58 GMT)
    • 自然言語クエリに基づくビデオ検索(シーン検索)のデータセット。1万映像と規模が大きい。ドメインは日常&旅行のvlogとnews。
    • リポジトリはhttps://github.com/jayleicn/moment_detr