arXiv – ページ 225 – arXiv最新論文の紹介

羅生門効果、アニメ補間、グラフデータサンプリング

Revisiting Rashomon: A Comment on “The Two Cultures” [95.8]
Breiman氏は「Rashomon Effect」と呼び、予測精度基準を等しく満たす多くのモデルが存在するが、情報を実質的に異なる方法で処理する状況について説明した。この現象は、データに適合するモデルに基づいて結論を導き出すか、意思決定を自動化することを困難にします。私は、この問題の意義を探求する機械学習における最近の研究と関係しています。
論文参考訳（メタデータ） (Mon, 5 Apr 2021 20:51:58 GMT)
- 機械学習における羅生門効果の話。ここでは「同じ最小エラー率を持つ関数のクラスに、多種多様な記述(例f(x))が存在」と定義。Underspecificationとも関連する重要な問題。現実では避けて通れない。

Deep Animation Video Interpolation in the Wild [115.2]
本研究では,アニメーション・ビデオ・コードに関する問題を初めて形式的に定義・検討する。効果的なフレームワークであるAnimeInterpを2つの専用モジュールで粗密に提案します。特にAnimeInterpは、現実のアニメーションシナリオに良好な知覚品質と堅牢性を示します。
論文参考訳（メタデータ） (Tue, 6 Apr 2021 13:26:49 GMT)
- アニメーションの映像補間。テクスチャ情報が使用しにくい、不連続かつ変異が大きいなど通常のビデオとは異なる特性に対応。

Graph Sampling Based Deep Metric Learning for Generalizable Person Re-Identification [114.6]
我々は、最も一般的なランダムサンプリング手法である有名なpkサンプリングは、深層メトリック学習にとって有益で効率的ではないと主張する。大規模計量学習のためのグラフサンプリング(GS)と呼ばれる効率的なミニバッチサンプリング手法を提案する。
論文参考訳（メタデータ） (Tue, 6 Apr 2021 05:26:26 GMT)
- アブストラクトの通り、サンプリング手法を工夫することによる人物再同定タスクでの精度向上。

Visual Transformer / マルチモーダルな攻撃

An Empirical Study of Training Self-Supervised Visual Transformers [70.3]
self-supervisedな視覚トランスフォーマーの訓練におけるいくつかの基本成分の影響について検討する。ViTの学習における基礎的要素の影響について検討する。不安定性は精度を低下させる主要な問題であり、明らかに良い結果によって隠すことができる。これらの結果は確かに部分的な失敗であり、トレーニングをより安定させると改善できる。
論文参考訳（メタデータ）参考訳（全文） (Mon, 5 Apr 2021 17:59:40 GMT)
- Facebookによる自己教師ありなVisual Transformer(ViT)の学習方法に関する論文。

Can audio-visual integration strengthen robustness under multimodal attacks? [47.8]
マルチモーダルな敵対攻撃に対する視聴覚イベント認識タスクをプロキシとして使用し、視聴覚学習の堅牢性を調査します。我々は、音声と視覚の統合が認識を強化するかどうかを調べるために、オーディオ、視覚、両方のモダリティを攻撃します。攻撃下のマルチモーダル相互作用を解釈するために,弱教師付き音源定位モデルを学ぶ。
論文参考訳（メタデータ）参考訳（全文） (Mon, 5 Apr 2021 16:46:45 GMT)
- マルチモーダルな前提での敵対的攻撃。堅牢性を強化するとは限らない。。。