SLUE(Spoken Language Understanding Evaluation): 音声言語理解のためのベンチマーク

  • SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation on Natural Speech [44.7]
    音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。 SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。 本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。 本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
    論文  参考訳(メタデータ)   (Fri, 19 Nov 2021 18:59:23 GMT)
    • 音声を用いたASR(Automatic Speech Recognition)、NER(Named Entity Recognition)、SA(Sentiment Analysis)タスクのベンチマーク。
    • プロジェクトサイトはGitHub – asappresearch/slue-toolkit

UFO(UniFied TransfOrmer):画像/言語で単一/マルチモーダル対応のTransformer

  • UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.8]
    視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。 既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
    論文  参考訳(メタデータ)   (Fri, 19 Nov 2021 03:23:10 GMT)
    • 単一のモーダル、マルチモーダルの両方をうまく扱えるTransformerの提案。VQA v2等で優れた性能を発揮。

アナログ時計を読み取るモデル

  • It’s About Time: Analog Clock Reading in the Wild [93.8]
    自然画像やビデオでアナログクロックを読むためのフレームワークを提案する。 我々は、合成クロックを生成するためのスケーラブルなパイプラインを作成し、労働集約アノテーションの要求を大幅に削減する。 提案した合成データセットに基づいてトレーニングしたモデルは、精度良く実時計に向けて一般化されていることを示す。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 17 Nov 2021 14:52:02 GMT)
    • 合成データを活用&時計の識別→歪みの補正→時計の読み取りというパイプライン&パイプライン内はTransformer等も活用、と最近流行な手法を取り入れているのが興味深い。画像から何かを読み取るモデルを構築する際に参考になりそう。
      • 伝統的な画像処理では対応できないのだろうかと思いつつも、単純そうに見えるタスクが難しいことも多い。本件もそんな感じなのかなと思う。