AudioPaLM、 Direct Speech-to-text Translationのサーベイ

  • AudioPaLM: A Large Language Model That Can Speak and Listen [79.4]
    本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。 AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。 音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
    論文  参考訳(メタデータ)   (Thu, 22 Jun 2023 14:37:54 GMT)
  • 音声とテキスト処理を融合するPaLM-2 +AudioLMな研究、Automatic Speech Translation (AST) 、Speech-to-Speech TranslationでSoTAを主張
  • プロジェクトサイトはAudioPaLM (google-research.github.io)

同時期に Direct Speech-to-text Translationのサーベイが出ていた。音声+テキストの融合はマルチモーダルな進化としては自然だと思う。TextlessNLPに向かっていくのだろうか?

  • Recent Advances in Direct Speech-to-text Translation [58.7]
    我々は、既存の研究成果を、モデリングの負担、データの不足、アプリケーション問題という3つの課題に基づいて分類する。 データ不足の課題に対して、最近の研究は、データ強化、事前学習、知識蒸留、多言語モデリングなど、多くの高度な技術を活用している。 我々は、リアルタイム、セグメンテーション、名前付きエンティティ、性別バイアス、コードスイッチングなど、アプリケーションの問題を分析して要約する。
    論文  参考訳(メタデータ)   (Tue, 20 Jun 2023 16:14:27 GMT)

Textbooks Are All You Need

  • Textbooks Are All You Need [46.8]
    phi-1はトランスフォーマーベースのモデルで、1.3Bパラメータを持ち、8A100で4日間訓練された。 phi-1はHumanEvalで50.6%、MBPPで55.5%の精度を達成した。
    論文  参考訳(メタデータ)   (Tue, 20 Jun 2023 16:14:25 GMT)
  • 教科書品質のデータ(6B)+GPT-3.5が出力した品質の高いテキスト(1B)を用いて、1.3Bパラメータ(使用計算リソース 8 GPU * 4 days)という比較的小型で優れた性能を持つモデルが構築できたとのこと
  • タスクがコード生成かつPythonと特化されている点に注意が必要だが、品質の高いデータの重要性が分かる報告。パラメータは小さめと言いつつ、パラメータ拡大が品質向上に効果がありそうに見える。

Inverse Scaling

  • Inverse Scaling: When Bigger Isn’t Better [65.0]
    大規模言語モデル(LM)は、スケールの増大による全体的な損失に対する予測可能な改善を示している。 我々は,LMが逆スケーリングや,スケールの増大に伴うタスクパフォーマンスの悪化を示す可能性があるという主張を裏付ける証拠を示す。
    論文  参考訳(メタデータ)   (Thu, 15 Jun 2023 20:11:23 GMT)
  • 大規模言語モデルでTraining FLOPs(モデルパラメータとも相関)が拡大するにつれ通常とは逆にスコアが悪化するタスクの例と分析、 the Inverse Scaling Prize (§2)の分析
  • U字型だけでなく逆U字型のグラフになるタスクがあるのが興味深い。
  • リポジトリはGitHub – inverse-scaling/prize: A prize for finding tasks that cause large language models to show inverse scaling

Language to Rewards for Robotic Skill Synthesis

  • Language to Rewards for Robotic Skill Synthesis [37.2]
    我々は,大規模言語モデル(LLM)を利用して,様々なロボットタスクを最適化し,達成可能な報酬パラメータを定義する新しいパラダイムを提案する。 LLMが生成する中間インタフェースとして報酬を用いることで、ハイレベルな言語命令と修正のギャップを、低レベルなロボット動作に効果的に埋めることができる。
    論文  参考訳(メタデータ)   (Wed, 14 Jun 2023 17:27:10 GMT)
  • LLMを人間とロボットの仲介役として使うため、人間の指示を報酬を示す関数(コード)に変換するアプローチを提案
  • リポジトリはLanguage to Rewards for Robotic Skill Synthesis (language-to-reward.github.io)

14 Examples of How LLMs Can Transform Materials Science and Chemistry: A Reflection on a Large Language Model Hackathon

  • 14 Examples of How LLMs Can Transform Materials Science and Chemistry: A Reflection on a Large Language Model Hackathon [31.1]
    我々は化学、材料科学などにおける大規模言語モデル(LLM)の適用についてハッカソンを開催した。 この記事ではハッカソンの一部として構築されたプロジェクトを概説する。 多様なトピックや作業プロトタイプが2日以内で生成されるという事実は、LLMが私たちの分野の将来に大きな影響を与えることを浮き彫りにします。
    論文  参考訳(メタデータ)   (Tue, 13 Jun 2023 07:44:32 GMT)
  • 化学分野におけるLLM利用ハッカソンの報告、いろいろなアイデアがあって興味深いのとデモがあるのが凄い。「The diverse topics and the fact that working prototypes could be generated in less than two days highlight that LLMs will profoundly impact the future of our fields.」との記載が印象的。

Augmenting Language Models with Long-Term Memory

  • Augmenting Language Models with Long-Term Memory [142.0]
    既存の大規模言語モデル(LLM)では、入力長制限のため、固定サイズの入力しかできない。 本稿では,Long-Term Memory (LongMem) を付加した言語モデルを提案する。
    論文  参考訳(メタデータ)   (Mon, 12 Jun 2023 15:13:39 GMT)
  • LLMを凍結した状態でresidual side-network (SideNet)を使ってメモリ機構を実現する方式の提案。既存手法の性能を上回り、in context learningでも本手法を通したshot数の向上が性能向上に効果があったとのこと
  • リポジトリはGitHub – Victorwz/LongMem

KoLA: Carefully Benchmarking World Knowledge of Large Language Models

  • KoLA: Carefully Benchmarking World Knowledge of Large Language Models [56.7]
    我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。 能力モデリングでは、人間の認知を模倣して知識関連能力の4段階の分類を作成し、19のタスクをカバーしている。 データには、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集される新興コーパスの両方を使用し、目に見えないデータを扱う能力と知識の進化を評価することを目的としています。
    論文  参考訳(メタデータ)   (Thu, 15 Jun 2023 17:20:46 GMT)
  • Knowledge Memorization (KM), Knowledge Understanding (KU) ,Knowledge Applying (KA) , Knowledge Creating (KC)の軸、19のタスクでLLMを評価する総合ベンチマークの提案。総合的にGPT-4の優秀さが目立つが評価軸やベンチマークによって性能が様々であることもわかる。
  • プロジェクトサイトはhttps://kola.xlore.cn、リポジトリはGitHub – THU-KEG/KoLA: The open-source repo of THU-KEG’s KoLA benchmark.

CMMLU: Chinese Massive Multitask Language Understanding

  • CMMLU: Measuring massive multitask language understanding in Chinese [121.8]
    本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。 CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
    論文  参考訳(メタデータ)   (Thu, 15 Jun 2023 15:49:51 GMT)
  • 中国語の総合ベンチマーク、中国語固有の回答などが含まれるデータセットであるとのこと。正答率はChatGPTでも55.51%と難しいタスク(ランダム回答だと25%)、OSSなモデルのベストはFalcon-40Bの41.45%、LLaMA 65Bは39.80%とChatGPTからの性能差は大きい。ChatGLM-6Bの37.48%、BLOOMZ-7Bの37.04%を見るに中国語に対応させに行く方向性は有効そうではある。
  • リポジトリはGitHub – haonan-li/CMMLU

BIG-bench: Beyond the Imitation Game benchmark (論文ver3)

  • Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models [648.4]
    言語モデルは、規模が大きくなるにつれて量的改善と新しい質的能力の両方を示す。 ビッグベンチは204のタスクで構成され、132の機関で450人の著者が貢献している。 我々は,OpenAIのGPTモデル,Google内部の高密度トランスアーキテクチャ,BIGベンチ上のスイッチ型スパーストランスの挙動を評価する。
    論文  参考訳(メタデータ)   (Mon, 12 Jun 2023 17:51:15 GMT)
  • BIG-Benchの論文がアップデートされている。GPT-4やPaLM2の結果を期待していたがそのような大規模アップデートではなさそう。。
  • 元々の紹介はBeyond the Imitation Game benchmark (BIG-bench) – arXiv最新論文の紹介 (devneko.jp)

M3Exam 

  • M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language Models [30.4]
    M3Examは、多言語、マルチモーダル、マルチレベルコンテキストにおける大規模言語モデル(LLM)を評価するためのベンチマークである。 M3Examには、9つの言語で12,317の質問があり、3つの教育レベルがある。 我々は,M3Exam上でのLLMの性能評価を行い,GPT-4を含む現在のモデルが多言語テキストに苦戦していることを確認した。
    論文  参考訳(メタデータ)   (Thu, 8 Jun 2023 13:21:29 GMT)
  • マルチリンガル、マルチモーダルなLLM評価用のベンチマーク。残念ながら日本語は入っていない。このベンチマークではGPT-4 > ChatGPT > Calude > Vicuna > BLOOMとのこと。前提条件などにもよるのだろうが参考になる。
  • リポジトリはGitHub – DAMO-NLP-SG/M3Exam: Data and code for paper “M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language Models”