コンテンツへスキップ
- Revisiting Rashomon: A Comment on “The Two Cultures” [95.8]
Breiman氏は「Rashomon Effect」と呼び、予測精度基準を等しく満たす多くのモデルが存在するが、情報を実質的に異なる方法で処理する状況について説明した。 この現象は、データに適合するモデルに基づいて結論を導き出すか、意思決定を自動化することを困難にします。 私は、この問題の意義を探求する機械学習における最近の研究と関係しています。
論文 参考訳(メタデータ) (Mon, 5 Apr 2021 20:51:58 GMT)
- Deep Animation Video Interpolation in the Wild [115.2]
本研究では,アニメーション・ビデオ・コードに関する問題を初めて形式的に定義・検討する。 効果的なフレームワークであるAnimeInterpを2つの専用モジュールで粗密に提案します。 特にAnimeInterpは、現実のアニメーションシナリオに良好な知覚品質と堅牢性を示します。
論文 参考訳(メタデータ) (Tue, 6 Apr 2021 13:26:49 GMT)- アニメーションの映像補間。テクスチャ情報が使用しにくい、不連続かつ変異が大きいなど通常のビデオとは異なる特性に対応。
- Graph Sampling Based Deep Metric Learning for Generalizable Person Re-Identification [114.6]
我々は、最も一般的なランダムサンプリング手法である有名なpkサンプリングは、深層メトリック学習にとって有益で効率的ではないと主張する。 大規模計量学習のためのグラフサンプリング(GS)と呼ばれる効率的なミニバッチサンプリング手法を提案する。
論文 参考訳(メタデータ) (Tue, 6 Apr 2021 05:26:26 GMT)- アブストラクトの通り、サンプリング手法を工夫することによる人物再同定タスクでの精度向上。
- An Empirical Study of Training Self-Supervised Visual Transformers [70.3]
self-supervisedな視覚トランスフォーマーの訓練におけるいくつかの基本成分の影響について検討する。ViTの学習における基礎的要素の影響について検討する。 不安定性は精度を低下させる主要な問題であり、明らかに良い結果によって隠すことができる。 これらの結果は確かに部分的な失敗であり、トレーニングをより安定させると改善できる。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 5 Apr 2021 17:59:40 GMT)- Facebookによる自己教師ありなVisual Transformer(ViT)の学習方法に関する論文。
- Can audio-visual integration strengthen robustness under multimodal attacks? [47.8]
マルチモーダルな敵対攻撃に対する視聴覚イベント認識タスクをプロキシとして使用し、視聴覚学習の堅牢性を調査します。 我々は、音声と視覚の統合が認識を強化するかどうかを調べるために、オーディオ、視覚、両方のモダリティを攻撃します。 攻撃下のマルチモーダル相互作用を解釈するために,弱教師付き音源定位モデルを学ぶ。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 5 Apr 2021 16:46:45 GMT)- マルチモーダルな前提での敵対的攻撃。堅牢性を強化するとは限らない。。。