AudioPaLM、 Direct Speech-to-text Translationのサーベイ

  • AudioPaLM: A Large Language Model That Can Speak and Listen [79.4]
    本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。 AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。 音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
    論文  参考訳(メタデータ)   (Thu, 22 Jun 2023 14:37:54 GMT)
  • 音声とテキスト処理を融合するPaLM-2 +AudioLMな研究、Automatic Speech Translation (AST) 、Speech-to-Speech TranslationでSoTAを主張
  • プロジェクトサイトはAudioPaLM (google-research.github.io)

同時期に Direct Speech-to-text Translationのサーベイが出ていた。音声+テキストの融合はマルチモーダルな進化としては自然だと思う。TextlessNLPに向かっていくのだろうか?

  • Recent Advances in Direct Speech-to-text Translation [58.7]
    我々は、既存の研究成果を、モデリングの負担、データの不足、アプリケーション問題という3つの課題に基づいて分類する。 データ不足の課題に対して、最近の研究は、データ強化、事前学習、知識蒸留、多言語モデリングなど、多くの高度な技術を活用している。 我々は、リアルタイム、セグメンテーション、名前付きエンティティ、性別バイアス、コードスイッチングなど、アプリケーションの問題を分析して要約する。
    論文  参考訳(メタデータ)   (Tue, 20 Jun 2023 16:14:27 GMT)

Textbooks Are All You Need

  • Textbooks Are All You Need [46.8]
    phi-1はトランスフォーマーベースのモデルで、1.3Bパラメータを持ち、8A100で4日間訓練された。 phi-1はHumanEvalで50.6%、MBPPで55.5%の精度を達成した。
    論文  参考訳(メタデータ)   (Tue, 20 Jun 2023 16:14:25 GMT)
  • 教科書品質のデータ(6B)+GPT-3.5が出力した品質の高いテキスト(1B)を用いて、1.3Bパラメータ(使用計算リソース 8 GPU * 4 days)という比較的小型で優れた性能を持つモデルが構築できたとのこと
  • タスクがコード生成かつPythonと特化されている点に注意が必要だが、品質の高いデータの重要性が分かる報告。パラメータは小さめと言いつつ、パラメータ拡大が品質向上に効果がありそうに見える。

Inverse Scaling

  • Inverse Scaling: When Bigger Isn’t Better [65.0]
    大規模言語モデル(LM)は、スケールの増大による全体的な損失に対する予測可能な改善を示している。 我々は,LMが逆スケーリングや,スケールの増大に伴うタスクパフォーマンスの悪化を示す可能性があるという主張を裏付ける証拠を示す。
    論文  参考訳(メタデータ)   (Thu, 15 Jun 2023 20:11:23 GMT)
  • 大規模言語モデルでTraining FLOPs(モデルパラメータとも相関)が拡大するにつれ通常とは逆にスコアが悪化するタスクの例と分析、 the Inverse Scaling Prize (§2)の分析
  • U字型だけでなく逆U字型のグラフになるタスクがあるのが興味深い。
  • リポジトリはGitHub – inverse-scaling/prize: A prize for finding tasks that cause large language models to show inverse scaling