画像+音声の自己教師あり物体検出、マルチモーダルなQA

  • Self-supervised object detection from audio-visual correspondence [101.5]
    我々は、教師なしで物体検出器を学習する問題に取り組む。 画像レベルのクラスラベルは想定せず、代わりにオーディオビジュアルデータから監視信号を抽出します。物体検出と音源定位という課題において、従来の教師なし・弱教師付き検出器よりも優れる。 我々はまた、この検出器を1つの擬似クラスごとに1つのラベルで正解クラスに合わせることができ、飛行機や猫のような計器を超える一般的な物体を検出する方法を学ぶことができることを示す。
    論文  参考訳(メタデータ)   (Tue, 13 Apr 2021 17:59:03 GMT)
    • 映像+音声を用いる自己教師あり学習。なんとなく人間に近づいていっているような感がある。
  • MultiModalQA: Complex Question Answering over Text, Tables and Images [52.3]
    テキスト,テーブル,画像に対する共同推論を必要とするデータセットであるMultiModalQAを提案する。 大規模で複雑なマルチモーダル質問を生成するための新しいフレームワークを使用してMMQAを作成します。 次に、単一のモダリティから回答できる質問を受け取り、それらを組み合わせてクロスモーダルな質問を生成する形式言語を定義します。
    論文  参考訳(メタデータ)   (Tue, 13 Apr 2021 09:14:28 GMT)
    • マルチモーダルなQAデータセット。約3万サンプル、36%はクロスモーダルな推論が必要な難しいデータ。現時点では機械に比べ人間のパフォーマンスは圧倒的に高い。https://allenai.github.io/multimodalqa/でデータを公開してくれるとのこと。

効率的なGCN、ビームサーチを超えるサーチ、感情を考慮した翻訳

  • Towards Efficient Graph Convolutional Networks for Point Cloud Handling [181.6]
    ポイントクラウド上で学習するためのグラフ畳み込みネットワーク(GCN)の計算効率の向上を目指す。 1) 3次元表現の局所的幾何学的構造情報はKNN探索による近傍特徴の収集に依存するGCN全体にわたって円滑に伝播する。2)グラフ特徴集合の順序をシャッフルし、MLPが等価あるいは類似の複合演算に導く。これらの結果に基づき、GCNの計算手順を最適化する。最適化されたネットワークは計算の複雑さを減らし、メモリ消費を減らし、予測速度を加速し、ポイントクラウド上での学習の精度を同等に保った。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 12 Apr 2021 17:59:16 GMT)
    • GCNの高速化の話。結果はpoint cloudの性質による(?)
  • Machine Translation Decoding beyond Beam Search [43.3]
    ビームサーチは自動回帰機械翻訳モデルの復号化手法である。ビームサーチは自動回帰機械翻訳モデルの復号化手法である。 BLEUの観点で一貫した改善をもたらすが、それは高いモデル確率で出力を見つけることだけに関係している。 我々の目標は、ビームサーチがより強力な計量駆動サーチ技術に置き換えられるかどうかを確かめることである。 モンテカルロ木探索(mcts)に基づく手法を導入し,その競合性を示す。
    論文  参考訳(メタデータ)   (Mon, 12 Apr 2021 10:28:17 GMT)
    • 翻訳タスク、文章生成タスクなどでよく用いられるビームサーチを改善できるかを検討した論文。DeepMindらしく(?)広範な比較があり参考になる。BLEUのみをメトリクスにしていないのも今風。
  • Sentiment-based Candidate Selection for NMT [2.6]
    本稿では,機械翻訳(mt)候補選択プロセスに自動感情スコアを組み込むデコーダ側手法を提案する。 我々は、英語とスペイン語の感情分類器を訓練し、ビームサーチによるベースラインMTモデルによって生成されたn-best候補を用いて、原文の感情スコアと翻訳の絶対差を最小化する候補を選択する。 人間の評価結果から口語的で感情的な原文をより正確に翻訳することができた。
    論文  参考訳(メタデータ)   (Sat, 10 Apr 2021 19:01:52 GMT)
    • 感情分類器を併用した機械翻訳の論文。このようなアプローチは面白い。

AutoMLの評価、トレーディングデータの取り扱い

  • Model LineUpper: Supporting Interactive Model Comparison at Multiple Levels for AutoML [29.0]
    現在のAutoMLシステムでは、選択はパフォーマンスメトリックによってのみサポートされる。 複数のXAI(Explainable AI)と可視化技術を組み合わせることで、AutoMLのインタラクティブなモデル比較を支援するツールを開発しています。
    論文  参考訳(メタデータ)   (Fri, 9 Apr 2021 14:06:13 GMT)
    • 機械的なメトリクスだけでなく、XAI的な視点を追加したツールが重要との話。その通りと思う一方で人への依存性は弱点にもなりうるのでユースケース次第という印象。
  • CLVSA: A Convolutional LSTM Based Variational Sequence-to-Sequence Model with Attention for Predicting Trends of Financial Markets [12.0]
    生の金融トレーディングデータの特徴を変動的に捉えるハイブリッドモデルであるCLVSAを提案する。CLVSAは確率的リカレント・ネットワーク、シーケンス・ツー・シーケンス・アーキテクチャ、自己・内部アテンション機構、畳み込みLSTMユニットから構成されるハイブリッドモデルであり、生の金融取引データにおける変動基盤の特徴を捉える。 実験の結果、近似的な後段処理の導入により、kullback-leibler ダイバージェンスに基づく正規化を活用し、過学習を防止することができた。
    論文  参考訳(メタデータ)   (Thu, 8 Apr 2021 20:31:04 GMT)
    • 金融取引データの特徴を捉えるDeep Learning系モデルの話。堅牢にリターンを得たという実験結果はほんまかいな?と思うが、興味深い結果ではある。

手書き文字の生成、データ拡張

  • Handwriting Transformers [98.4]
    本稿では, トランスフォーマーを用いた手書きテキスト画像生成手法であるHWTを提案する。HWTは,自己アテンション機構を用いて,スタイル例内の長短範囲関係をキャプチャし,グローバルなスタイルパターンとローカルなスタイルパターンの両方を符号化する。提案したHWTは, 自己認識機構を用いて, スタイルの例における長短距離関係をキャプチャする。 提案するHWTは,現実的な手書きテキスト画像を生成する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 8 Apr 2021 17:59:43 GMT)
    • Transformerを用いた手書きテキストの生成。直感的にはシーケンス的な情報も重要なのでこの構造は有効なのだと思う。PDFにあるサンプルが興味深い。
  • InAugment: Improving Classifiers via Internal Augmentation [14.3]
    本稿では,画像内部統計を利用した新しい拡張操作であるinaugmentを提案する。 キーとなるアイデアは、イメージ自体からパッチをコピーし、拡張操作を適用し、それらを同じイメージ上のランダムな位置にペーストすることだ。imagenetデータセットにおけるresnet50 と efficientnet-b3 top-1 の精度を,事前拡張法と比較して向上させた。 最後に,InAugmentを用いた畳み込みニューラルネットワークのトレーニングにより,モデルの精度と信頼性が向上するだけでなく,分布外画像の性能が向上することが示唆された。
    論文  参考訳(メタデータ)   (Thu, 8 Apr 2021 15:37:21 GMT)
    • データ拡張の話。この手のData augumentationは精度向上テクニックとして有効なこともあるという印象だが、論文中の様々な手法との比較が参考になる。コードはgithubに公開予定とのこと。

引用関係を用いた要約、 高解像度航空写真のシーン認識データセット

  • Enhancing Scientific Papers Summarization with Citation Graph [78.7]
    論文要約を引用グラフを利用して再定義し,引用グラフに基づく要約モデルCGSumを提案する。異なる領域の141Kの研究論文と661Kの引用関係を含む新たな科学論文要約データセットSemantic Scholar Network (SSN)を構築した。 単純なアーキテクチャであっても, 事前学習モデルと比較して性能が向上することが示された。論文の内容をよりよく理解し、高品質な要約を生成するために引用グラフが重要であることも示唆した。
    論文  参考訳(メタデータ)   (Wed, 7 Apr 2021 11:13:35 GMT)
    • 単純な文書要約ではなく文章以外の情報(ここでは引用関係)を考慮した要約。文書間の関係考慮は現実問題でも重要。データセット、コードも公開してくれるとのこと。
  • MultiScene: A Large-scale Dataset and Benchmark for Multi-scene Recognition in Single Aerial Images [17.8]
    我々は10万の高解像度空中画像からなるMultiSceneと呼ばれる大規模なデータセットを作成します。  このようなイメージを手動でラベル付けするのは極めて困難なため、クラウドソーシングプラットフォーム(例えばOpenStreetMap (OSM))から低コストなアノテーションを利用した。ノイズに対応するため、14,000枚の画像を検査し、そのシーンラベルを補正し、MultiScene-Cleanというクリーンな注釈付き画像のサブセットを生成した。これにより、クリーンデータを用いたマルチシーン認識のためのディープネットワークの開発と評価が可能となる。
    論文  参考訳(メタデータ)   (Wed, 7 Apr 2021 01:09:12 GMT)
    • 大規模データセットということで採用。ノイズへの対応は苦労が多そう。

羅生門効果、アニメ補間、グラフデータサンプリング

  • Revisiting Rashomon: A Comment on “The Two Cultures” [95.8]
    Breiman氏は「Rashomon Effect」と呼び、予測精度基準を等しく満たす多くのモデルが存在するが、情報を実質的に異なる方法で処理する状況について説明した。 この現象は、データに適合するモデルに基づいて結論を導き出すか、意思決定を自動化することを困難にします。 私は、この問題の意義を探求する機械学習における最近の研究と関係しています。
    論文  参考訳(メタデータ)   (Mon, 5 Apr 2021 20:51:58 GMT)
    • 機械学習における羅生門効果の話。ここでは「同じ最小エラー率を持つ関数のクラスに、多種多様な記述(例f(x))が存在」と定義。Underspecificationとも関連する重要な問題。現実では避けて通れない。
  • Deep Animation Video Interpolation in the Wild [115.2]
    本研究では,アニメーション・ビデオ・コードに関する問題を初めて形式的に定義・検討する。 効果的なフレームワークであるAnimeInterpを2つの専用モジュールで粗密に提案します。 特にAnimeInterpは、現実のアニメーションシナリオに良好な知覚品質と堅牢性を示します。
    論文  参考訳(メタデータ)   (Tue, 6 Apr 2021 13:26:49 GMT)
    • アニメーションの映像補間。テクスチャ情報が使用しにくい、不連続かつ変異が大きいなど通常のビデオとは異なる特性に対応。
  • Graph Sampling Based Deep Metric Learning for Generalizable Person Re-Identification [114.6]
    我々は、最も一般的なランダムサンプリング手法である有名なpkサンプリングは、深層メトリック学習にとって有益で効率的ではないと主張する。 大規模計量学習のためのグラフサンプリング(GS)と呼ばれる効率的なミニバッチサンプリング手法を提案する。
    論文  参考訳(メタデータ)   (Tue, 6 Apr 2021 05:26:26 GMT)
    • アブストラクトの通り、サンプリング手法を工夫することによる人物再同定タスクでの精度向上。

Visual Transformer / マルチモーダルな攻撃

  • An Empirical Study of Training Self-Supervised Visual Transformers [70.3]
    self-supervisedな視覚トランスフォーマーの訓練におけるいくつかの基本成分の影響について検討する。ViTの学習における基礎的要素の影響について検討する。 不安定性は精度を低下させる主要な問題であり、明らかに良い結果によって隠すことができる。 これらの結果は確かに部分的な失敗であり、トレーニングをより安定させると改善できる。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 5 Apr 2021 17:59:40 GMT)
    • Facebookによる自己教師ありなVisual Transformer(ViT)の学習方法に関する論文。
  • Can audio-visual integration strengthen robustness under multimodal attacks? [47.8]
    マルチモーダルな敵対攻撃に対する視聴覚イベント認識タスクをプロキシとして使用し、視聴覚学習の堅牢性を調査します。 我々は、音声と視覚の統合が認識を強化するかどうかを調べるために、オーディオ、視覚、両方のモダリティを攻撃します。 攻撃下のマルチモーダル相互作用を解釈するために,弱教師付き音源定位モデルを学ぶ。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 5 Apr 2021 16:46:45 GMT)
    • マルチモーダルな前提での敵対的攻撃。堅牢性を強化するとは限らない。。。