PaLM-E

  • PaLM-E: An Embodied Multimodal Language Model [101.3]
    本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。 我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。 562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
    論文  参考訳(メタデータ)   (Mon, 6 Mar 2023 18:58:06 GMT)
  • 大規模言語モデル(PaLM)と画像(ViT)の融合、マルチモーダルな巨大言語モデルでOK-VQAでSOTA。だけでなく、マルチモーダルなCoTやOCR-freeな数学的推論、multiimage reasoningなど幅広いタスクに対応可能とのこと。2ページの図は衝撃的でRobot Visual Perception, Dialogue, and Planningをみると目を持ったChatGPTのような雰囲気を感じる。
  • プロジェクトサイトはPaLM-E: An Embodied Multimodal Language Model

LLaMA

Introducing LLaMA: A foundational,65-billion-parameter large languagemodel
LLaMAは、研究者がAIのこのサブフィールドで研究を進めるのを助けるために設計された基礎的な大きな言語モデルである。ファンデーションモデルはラベルのない大量のデータをトレーニングするので、さまざまなタスクの微調整に理想的です。

フリーの大規模言語モデルで65BパラメータでGPT-3 (175B)を上回りPaLM(540B)に匹敵とのこと。オープンなモデルではあるがNon-Commercial用途のよう。

GPU-hourの比較が載っているがLLaMA(7B)で82432、LLaMA(65B)は1022362、p4d.24xlargeのオンデマンド価格(8 GPU hour)が32.77 USD、4500円くらいなので、7Bで良ければ5000万円くらいでトレーニングできる(オンデマンドでやる人はいないはずで実態はもっと安いだろうけど…)

主要なデータが英語のEnglish CommonCrawl [67%]、WikipediaとBooksデータは bg, ca, cs, da, de, en, es, fr, hr, hu, it, nl, pl, pt, ro, ru, sl, sr, sv, ukを使用とのことで日本語の性能は期待できなさそう。(他例を見るとそれなりに使えたりもするかもしれないが・・・)

LLaMA: Open and Efficient Foundation Language Models – Meta Research (facebook.com)

GitHub – facebookresearch/llama: Inference code for LLaMA models

Augmented Language Modelのサーベイ

  • Augmented Language Models: a Survey [56.0]
    この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。 私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。 トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
    論文  参考訳(メタデータ)   (Wed, 15 Feb 2023 18:25:52 GMT)
  • CoTのようなサブタスク化した上での推論、外部知識の利用、データベース検索、ツールの利用など大規模言語モデルを拡張するアプローチのサーベイ。reasoning がAugmentedなのか?という問いには「 reasoning is a way for LMs to combine different tools in order to solve complex tasks, and tools are a way to not fail a reasoning with valid decomposition.」との記載があり、分けて語るべきではないという見解?

Towards Agile Text Classifiers for Everyone

  • Towards Agile Text Classifiers for Everyone [10.4]
    本稿では,アジャイルテキスト分類の手法を紹介し,評価する。 そこで本研究では,PaLM 62Bのような高速チューニング型大規模言語モデルに対して,80例までのラベル付きデータセットを適用すれば,最先端のパフォーマンスを実現することができることを示す。 これはテキスト分類のパラダイムシフト、特により安全なオンライン談話をサポートするモデルに有効である、と我々は主張する。
    論文  参考訳(メタデータ)   (Mon, 13 Feb 2023 17:34:13 GMT)
  • 大規模言語モデル+ソフトプロンプトの強力さが分かる論文
  • PaLM 62Bモデルのプロンプトチューニングの場合100以下の事例で十分な性能のテキスト分類器を構築可能とのこと。この方針だと大量のアノテーションを行わなくても良く実用的。GPT-3.5などのfew shotも強力だが、頑張ればアノテーションできる量の情報を過不足なく使うという方針もとても有望だと思う。

What Language Reveals about Perception: Distilling Psychophysical Knowledge from Large Language Models

  • What Language Reveals about Perception: Distilling Psychophysical Knowledge from Large Language Models [12.9]
    類似性判定に基づいて,大規模言語モデルと古典的な心理物理学的手法を組み合わせる方法について述べる。 提案手法を6つの知覚領域で検証し,提案した判断が人間のデータと強く相関していることを示す。 我々の研究は、最先端のマシンモデルとよく知られた認知パラダイムを組み合わせることで、認識と言語研究の基本的な問題に新たな光を当てることができることを示す。
    論文  参考訳(メタデータ)   (Thu, 2 Feb 2023 18:32:46 GMT)
  • LLMを用いてPsychophysicalな情報を得ようとする試み。「We found that not only does the extracted data correlate highly with human judgments, but it also recovers well-known psychophysical structures from the literature such as the cyclical and helical organizations of color and pitch.」とあるのはすごく面白い結果ではありつつ、Discussionにも指摘があるように単にそういうことが書かれた記事を復元しているだけじゃないのか?という疑問もある。
  • 何はともあれLLMを色々な分野に応用するというのはとても興味深い。

Theory of Mind May Have Spontaneously Emerged in Large Language Models

  • Theory of Mind May Have Spontaneously Emerged in Large Language Models [0.1]
    心の理論 (ToM) は、人間の社会的相互作用、コミュニケーション、共感、自己意識、道徳の中心である。 以上の結果から,2022年以前のモデルでは,ToM課題の解決が事実上不可能であることが示唆された。 これらのことから,ToMライクな能力は言語モデルの言語能力向上の副産物として自然に現れる可能性が示唆された。
    論文  参考訳(メタデータ)   (Sat, 4 Feb 2023 03:50:01 GMT)
  • 人間用のTheory of mindテストを大規模言語モデルに適用、近年のモデルでは一定のれべるにあると指摘する論文。GPT-3.5 (text-davinci-003)では9歳の子供のレベルであると指摘していて、ほんまかいなと思わなくもない。
  • 近年のモデルではこの手のタスクを解く能力が強化されているのは確かなのだろうが、leakの疑いもなくはなく正しい評価は非常に難しいと思う。

REPLUG: Retrieve and Plug

  • REPLUG: Retrieval-Augmented Black-Box Language Models [101.6]
    REPLUGは、言語モデル(LM)をブラックボックスとして扱い、調整可能な検索モデルで拡張する検索拡張言語モデリングフレームワークである。 その結果,REPLUG は言語モデリングにおける GPT-3 (175B) の性能を6.3%向上させるとともに,5ショットMMLU における Codex の性能を5.1%向上させることがわかった。
    論文  参考訳(メタデータ)   (Wed, 1 Feb 2023 00:15:18 GMT)
  • 外部コーパスを併用することで言語モデルの性能を上げる試み。類似度で使う情報を得る事もできるが、REPLUG LSR (REPLUG with LM-Supervised Retrieval)はRetrieval部分を調整(学習)可能なモジュールとする。GPT, OPT, BLOOMといった超巨大な言語モデルを含めて性能が向上するとのこと。(当然かもだが)REPLUG LSRの方が性能が高そう。
  • 検索系手法との併用は結構な確率で嘘を混ぜ込む現状に対しての現実解な気がする。ただ、この手法を用いてさえ「REPLUG lacks interpretability as it is unclear when the model relies on retrieved knowledge or parametric knowledge」と書かれている。

大規模言語モデルへの透かし

  • A Watermark for Large Language Models [60.7]
    本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。 透かしはテキストの品質に無視できる影響で埋め込むことができ、言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
    論文  参考訳(メタデータ)   (Tue, 24 Jan 2023 18:52:59 GMT)
  • 大規模言語モデルの出力に透かしを入れ検知できるようにするフレームワークの提案。
    ChatGPTにはすでに導入されいたりするのだろうか・・・?
  • リポジトリはGitHub – jwkirchenbauer/lm-watermarking

XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked Language Models 

  • XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked Language Models [87.7]
    我々は,言語間のトークン共有を非強調にすることで,非常に大きな多言語語彙に拡張する新たなアプローチを提案する。 我々は100万のトークン語彙を持つ多言語言語モデルであるXLM-Vを訓練する。 XLM-Vは、自然言語推論(XNLI)から質問応答(MLQA)、名前付きエンティティ認識(WikiAnn)まで幅広いタスクでXLM-Rより優れています。
    論文  参考訳(メタデータ)   (Wed, 25 Jan 2023 09:15:17 GMT)
  • 多言語モデルで問題(かつ議論)となる語彙に関する論文。100万語彙を持つモデルを学習し優れた性能を出しているのはすごい。
  • 「Most notably, we provide evidence showing that expanding the vocabulary beyond 1M tokens can degrade performance on downstream tasks」というのも興味深い。

MusicLMとMusicCaps

  • MusicLM: Generating Music From Text [24.5]
    テキスト記述から高忠実度音楽を生成するモデルであるMusicLMを紹介する。 MusicLMは、階層的なシーケンス・ツー・シーケンス・モデリングタスクとして条件付き音楽生成のプロセスをキャストする。 実験の結果,MusicLMは従来のシステムよりも音質やテキスト記述の順応性が優れていることがわかった。
    論文  参考訳(メタデータ)   (Thu, 26 Jan 2023 18:58:53 GMT)
  • テキストからの音楽生成、hierarchical sequence-to-sequence modelingとテンプレートレス。MusicCapsという名前で音楽とテキストのペアデータセット、55kを公開しているのも素晴らしい
  • プロジェクトサイトはMusicLM (google-research.github.io)、サンプルが聞けてそれっぽいのと歌声が入っているのも面白い。
  • MusicCapsデータセットはMusicCaps | Kaggleにあり、ライセンスはCC BY-SA 4.0