arXiv最新論文の紹介

AudioPaLM、 Direct Speech-to-text Translationのサーベイ

AudioPaLM: A Large Language Model That Can Speak and Listen [79.4]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。 AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文参考訳（メタデータ） (Thu, 22 Jun 2023 14:37:54 GMT)
音声とテキスト処理を融合するPaLM-2 +AudioLMな研究、Automatic Speech Translation (AST) 、Speech-to-Speech TranslationでSoTAを主張
プロジェクトサイトはAudioPaLM (google-research.github.io)

同時期に Direct Speech-to-text Translationのサーベイが出ていた。音声＋テキストの融合はマルチモーダルな進化としては自然だと思う。TextlessNLPに向かっていくのだろうか？

Recent Advances in Direct Speech-to-text Translation [58.7]
我々は、既存の研究成果を、モデリングの負担、データの不足、アプリケーション問題という3つの課題に基づいて分類する。データ不足の課題に対して、最近の研究は、データ強化、事前学習、知識蒸留、多言語モデリングなど、多くの高度な技術を活用している。我々は、リアルタイム、セグメンテーション、名前付きエンティティ、性別バイアス、コードスイッチングなど、アプリケーションの問題を分析して要約する。
論文参考訳（メタデータ） (Tue, 20 Jun 2023 16:14:27 GMT)

Textbooks Are All You Need

Textbooks Are All You Need [46.8]
phi-1はトランスフォーマーベースのモデルで、1.3Bパラメータを持ち、8A100で4日間訓練された。 phi-1はHumanEvalで50.6%、MBPPで55.5%の精度を達成した。
論文参考訳（メタデータ） (Tue, 20 Jun 2023 16:14:25 GMT)
教科書品質のデータ（6B）＋GPT-3.5が出力した品質の高いテキスト（1B）を用いて、1.3Bパラメータ（使用計算リソース 8 GPU * 4 days）という比較的小型で優れた性能を持つモデルが構築できたとのこと
タスクがコード生成かつPythonと特化されている点に注意が必要だが、品質の高いデータの重要性が分かる報告。パラメータは小さめと言いつつ、パラメータ拡大が品質向上に効果がありそうに見える。

Inverse Scaling

Inverse Scaling: When Bigger Isn’t Better [65.0]
大規模言語モデル(LM)は、スケールの増大による全体的な損失に対する予測可能な改善を示している。我々は,LMが逆スケーリングや,スケールの増大に伴うタスクパフォーマンスの悪化を示す可能性があるという主張を裏付ける証拠を示す。
論文参考訳（メタデータ） (Thu, 15 Jun 2023 20:11:23 GMT)
大規模言語モデルでTraining FLOPs（モデルパラメータとも相関）が拡大するにつれ通常とは逆にスコアが悪化するタスクの例と分析、 the Inverse Scaling Prize (§2)の分析
U字型だけでなく逆U字型のグラフになるタスクがあるのが興味深い。
リポジトリはGitHub – inverse-scaling/prize: A prize for finding tasks that cause large language models to show inverse scaling

Language to Rewards for Robotic Skill Synthesis

Language to Rewards for Robotic Skill Synthesis [37.2]
我々は,大規模言語モデル(LLM)を利用して,様々なロボットタスクを最適化し,達成可能な報酬パラメータを定義する新しいパラダイムを提案する。 LLMが生成する中間インタフェースとして報酬を用いることで、ハイレベルな言語命令と修正のギャップを、低レベルなロボット動作に効果的に埋めることができる。
論文参考訳（メタデータ） (Wed, 14 Jun 2023 17:27:10 GMT)
LLMを人間とロボットの仲介役として使うため、人間の指示を報酬を示す関数（コード）に変換するアプローチを提案
リポジトリはLanguage to Rewards for Robotic Skill Synthesis (language-to-reward.github.io)

14 Examples of How LLMs Can Transform Materials Science and Chemistry: A Reflection on a Large Language Model Hackathon

14 Examples of How LLMs Can Transform Materials Science and Chemistry: A Reflection on a Large Language Model Hackathon [31.1]
我々は化学、材料科学などにおける大規模言語モデル(LLM)の適用についてハッカソンを開催した。この記事ではハッカソンの一部として構築されたプロジェクトを概説する。多様なトピックや作業プロトタイプが2日以内で生成されるという事実は、LLMが私たちの分野の将来に大きな影響を与えることを浮き彫りにします。
論文参考訳（メタデータ） (Tue, 13 Jun 2023 07:44:32 GMT)
化学分野におけるLLM利用ハッカソンの報告、いろいろなアイデアがあって興味深いのとデモがあるのが凄い。「The diverse topics and the fact that working prototypes could be generated in less than two days highlight that LLMs will profoundly impact the future of our fields.」との記載が印象的。

h2oGPT

h2oGPT: Democratizing Large Language Models [1.8]
h2oGPTは、ジェネレーティブ事前学習トランスフォーマー(GPT)に基づいたLarge Language Models(LLM)の作成と使用のためのオープンソースのコードリポジトリのスイートである。このプロジェクトの目的は、クローズドソースのGPTに対して、世界で最高のオープンソース代替品を作ることです。
論文参考訳（メタデータ） (Tue, 13 Jun 2023 22:19:53 GMT)
GPT（チャットボットとドキュメント検索がユースケース）構築のためのフレームワークの提案。AutoMLツールとして有名なh2oによるオープンな実装で、主要なOSS基盤モデルをチューニングした結果もダウンロード可能。性能評価がモデルカードに含まれているのがありがたいのとLangChainなどとの連携も可能そう。
リポジトリはGitHub – h2oai/h2ogpt: Join us at H2O.ai to make the world’s best open-source GPT with document and image Q&A, 100% private chat, no data leaks, Apache 2.0 https://arxiv.org/pdf/2306.08161.pdf

MIMIC-IT

MIMIC-IT: Multi-Modal In-Context Instruction Tuning [44.9]
本稿では,280万のマルチモーダル・インストラクション・レスポンス・ペアからなるデータセットについて述べる。 MIMIC-ITデータセットを用いて、Otterはマルチモーダル認識、推論、文脈内学習において顕著な習熟度を示した。我々はMIMIC-ITデータセット、命令応答型コレクションパイプライン、ベンチマーク、オッターモデルをリリースする。
論文参考訳（メタデータ） (Thu, 8 Jun 2023 17:59:56 GMT)
大規模なマルチモーダル（画像または動画）のinstruction-response データセット、日本語も含まれているとのこと
リポジトリはGitHub – Luodian/Otter: 🦦 Otter, a multi-modal model based on OpenFlamingo (open-sourced version of DeepMind’s Flamingo), trained on MIMIC-IT and showcasing improved instruction-following and in-context learning ability.

AlgoPerf: Training Algorithms benchmark / Benchmarking Neural Network Training Algorithms

Benchmarking Neural Network Training Algorithms [46.4]
トレーニングアルゴリズムは、ディープラーニングパイプラインに不可欠な部分です。コミュニティとして、トレーニングアルゴリズムの改善を確実に特定することはできない。固定ハードウェア上で実行される複数のワークロードを使用した,新たな,競争力のある,時間と時間のベンチマークを導入する。
論文参考訳（メタデータ） (Mon, 12 Jun 2023 15:21:02 GMT)
トレーニングアルゴリズムの改善を測るためのベンチマークの提案。多くの研究者が慎重に検討しており論文も長く詳細。勉強になる。

CORR2CAUSE

Can Large Language Models Infer Causation from Correlation? [49.2]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文参考訳（メタデータ） (Fri, 9 Jun 2023 12:09:15 GMT)
相関から因果関係を決定するタスクの提案、LLMにとって非常に難しいタスクでありGPT-4でもかなり低スコア。finetuneするとスコアが大幅に向上するが堅牢さは十分でない点も興味深い。
リポジトリはGitHub – causalNLP/corr2cause: Data and code for the CausalNLI dataset paper

MobileNMT

MobileNMT: Enabling Translation in 15MB and 30ms [53.8]
デバイス上で15MBと30msで翻訳できるMobileNMTを提案する。モデルとエンジンの共設計により、既存のシステムと比較して47.0xのスピードを上げ、メモリの99.5%を節約し、BLEUの損失は11.6%に留まった。
論文参考訳（メタデータ） (Wed, 7 Jun 2023 08:25:51 GMT)
小規模で高速なニューラル機械翻訳モデルの提案
リポジトリはGitHub – zjersey/Lightseq-ARM

2026年2月
月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28