AV-data2vec

  • AV-data2vec: Self-supervised Learning of Audio-Visual Speech Representations with Contextualized Target Representations [57.4]
    AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。 LRS3の結果は、AV-data2vecがほとんどの設定で既存のメソッドよりも一貫して優れていることを示している。
    論文  参考訳(メタデータ)   (Fri, 10 Feb 2023 02:55:52 GMT)
  • 音声・画像をマスクして構築するマルチモーダルな2vec
  • ASR, VSR, AVSRで統合的に優れた性能、既存モデルをアウトパフォームとのこと

ROOTS Search Tool

  • The ROOTS Search Tool: Data Transparency for LLMs [116.6]
    ROOTSは、BLOOMのトレーニング用に開発された1.6TBの多言語テキストコーパスである。 本稿では,ROOTS 検索ツールについて紹介する。ROOTS コーパス全体を対象とした,ファジィかつ正確な検索機能を備えた検索エンジンである。
    論文  参考訳(メタデータ)   (Mon, 27 Feb 2023 18:45:18 GMT)
  • 大規模多言語コーパスの検索ツールの紹介
  • 残念ながら日本語は対象となっていないデータセットではあるが、検索してみると対訳データなどの形でちょくちょく日本語のテキストが含まれていることが分かる。全体としてどの程度の量が入っているかやそれによって日本語を解釈する能力がどの程度あるのかは興味がある
  • リポジトリはRoots Search Tool – a Hugging Face Space by bigscience-data