音声を対象とした自己教師あり学習

  • LeBenchmark: A Reproducible Framework for Assessing Self-Supervised Representation Learning from Speech [63.8]
    膨大なラベルのないデータを用いた自己教師付き学習(SSL)は、画像処理と自然言語処理に成功している。 近年では音声からのSSLも検討されている。 音声からSSLを評価する再現可能なフレームワークであるLeBenchmarkを提案する。
    論文  参考訳(メタデータ)   (Fri, 23 Apr 2021 08:27:09 GMT)

画像+音声の自己教師あり物体検出、マルチモーダルなQA

  • Self-supervised object detection from audio-visual correspondence [101.5]
    我々は、教師なしで物体検出器を学習する問題に取り組む。 画像レベルのクラスラベルは想定せず、代わりにオーディオビジュアルデータから監視信号を抽出します。物体検出と音源定位という課題において、従来の教師なし・弱教師付き検出器よりも優れる。 我々はまた、この検出器を1つの擬似クラスごとに1つのラベルで正解クラスに合わせることができ、飛行機や猫のような計器を超える一般的な物体を検出する方法を学ぶことができることを示す。
    論文  参考訳(メタデータ)   (Tue, 13 Apr 2021 17:59:03 GMT)
    • 映像+音声を用いる自己教師あり学習。なんとなく人間に近づいていっているような感がある。
  • MultiModalQA: Complex Question Answering over Text, Tables and Images [52.3]
    テキスト,テーブル,画像に対する共同推論を必要とするデータセットであるMultiModalQAを提案する。 大規模で複雑なマルチモーダル質問を生成するための新しいフレームワークを使用してMMQAを作成します。 次に、単一のモダリティから回答できる質問を受け取り、それらを組み合わせてクロスモーダルな質問を生成する形式言語を定義します。
    論文  参考訳(メタデータ)   (Tue, 13 Apr 2021 09:14:28 GMT)
    • マルチモーダルなQAデータセット。約3万サンプル、36%はクロスモーダルな推論が必要な難しいデータ。現時点では機械に比べ人間のパフォーマンスは圧倒的に高い。https://allenai.github.io/multimodalqa/でデータを公開してくれるとのこと。