The Nordic Pile: A 1.2TB Nordic Dataset for Language Modeling 

  • The Nordic Pile: A 1.2TB Nordic Dataset for Language Modeling [5.7]
    我々は、北ゲルマン語の主要言語すべてで1.2TBのテキストからなる高品質なデータセットをキュレートする。 本稿では,データセットの収集,クリーニング,フィルタリングに関する考察とプロセスについて詳述する。
    論文  参考訳(メタデータ)   (Thu, 30 Mar 2023 06:42:22 GMT)
  • デンマーク語,アイスランド語,ノルウェー語,スウェーデン語の1.2TBのデータセット構築に関する論文。1.2TBはPile(800GB)以上の規模で大規模言語モデル構築で十分機能するデータ量
  • 日本語データを作ってみたいなーと思いつつ、参考になる情報(データセットが構築できても計算環境が厳しいが…)

MEGA: Multilingual Evaluation of Generative AI 

  • MEGA: Multilingual Evaluation of Generative AI [6.3]
    生成AIモデルは、多くの自然言語処理タスクにおいて印象的なパフォーマンスを持つ。 ジェネレーティブ・Large Language Models (LLMs) に関するほとんどの研究は英語に限られている。 これらのモデルが、他の言語を理解して生成する能力がどの程度あるかは定かではない。
    論文  参考訳(メタデータ)   (Wed, 22 Mar 2023 13:03:10 GMT)
  • データセット、プロンプト、翻訳有無など設定が難しいLLMの多言語評価に関する論文。現時点ではコード等が公開されていないが、”We plan to release the MEGA benchmarking code to facilitate this.”にも”We plan to conduct a similar benchmarking of GPT4 in the near future.”にも期待大
  • davinci-003の結果は「健闘しているがfine tuningされたSoTAレベルには及ばず」「翻訳を介するtranslate-test が有効」という感じだが、GPT-4でどう変わっているかが気になるところ。

A Picture is Worth a Thousand Words: Language Models Plan from Pixels

  • A Picture is Worth a Thousand Words: Language Models Plan from Pixels [53.9]
    計画は, 実環境下で長時間の作業を行う人工エージェントの重要な機能である。 本研究では,事前学習型言語モデル(PLM)を用いて,具体的視覚環境におけるテキスト命令からのプランシーケンスを推論する。
    論文  参考訳(メタデータ)   (Thu, 16 Mar 2023 02:02:18 GMT)
  • Visualプロンプトによる計画作成。PLMをうまく使うためソフトプロンプトの形でデータを扱っているよう
  • 言語モデルか?という感じの使い方もかなりうまく動く報告が多くて面白い。GPT-4ではマルチモーダル対応でもう少しうまく取り合変えそう(将来的にはTextlessNLPっぽく扱ったりするんだろうか。)

CaFo: Cascade of Foundation models

  • Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners [55.1]
    CaFoは、様々な事前学習パラダイムの様々な事前知識を取り入れた、ファウンデーションのカスケードモデルである。 私たちのCaFoには、CLIPの言語コントラスト知識、DINOの視覚コントラスト知識、DALL-Eの視覚生成知識、GPT-3の言語生成知識が含まれています。
    論文  参考訳(メタデータ)   (Fri, 3 Mar 2023 18:58:16 GMT)
  • Foundationモデルを複数使うことによりfew shotでの画像分類で優れた性能を実現。寄せ集め感もあるがちゃんと性能が向上していて各モデルの知識が引き出せているのが面白い。
  • プロジェクトサイトはGitHub – ZrrSkywalker/CaFo: [CVPR 2023] Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners

BLOOM関連情報

BLOOM関連の情報が多く出ていた。

  • Investigating the Translation Performance of a Large Multilingual Language Model: the Case of BLOOM [8.9]
    複数のデータセットにまたがる機械翻訳性能を評価することで,BLOOMの多言語能力に着目する。 本稿では, 素早い設計, モデルサイズ, 言語間移動, 帰納的文脈の利用など, 様々な側面について検討する。
    論文  参考訳(メタデータ)   (Fri, 3 Mar 2023 13:23:42 GMT)
  • BLOOMの機械翻訳性能の評価。zero shotでは微妙だがfew shotでの翻訳能力はかなり優れているよう。M2Mを超えている言語ペアがあるのはすごい。
  • 一方でリソースが少ない言語では十分な性能となっていなさそう
  • The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual Dataset [37.0]
    BigScienceワークショップは、大きな言語モデルを価値駆動の業務として研究し、訓練することを目的として設立された。 本稿では,BigScienceがROOTSコーパス(Responsible Open-science Open-Collaboration Text Sources)を組み立てるために行ったデータ作成とキュレーションの取り組みについて述べる。
    論文  参考訳(メタデータ)   (Tue, 7 Mar 2023 14:25:44 GMT)
  • ROOTSコーパスを作成する際のデータキュレーションの方針などを解説した論文。
  • Extending the Pre-Training of BLOOM for Improved Support of Traditional Chinese: Models, Methods and Results [12.0]
    BLOOM-zhは、2022年にBigScienceによって発表されたオープンソースのBLOOMモデルに由来する。 BLOOMの事前トレーニングを、さまざまなドメインをカバーする中国語と英語で740億のトークンを追加することで拡張した。 BLOOM-zhは、従来の中国のベンチマークにおいて、英語の能力を維持しながら、前者よりも優れています。
    論文  参考訳(メタデータ)   (Wed, 8 Mar 2023 16:53:19 GMT)
  • 中国語の能力を強化したBLOOMの構築方法、日本語版が欲しい…

Larger language models do in-context learning differently

  • Larger language models do in-context learning differently [93.9]
    言語モデルにおけるインコンテキスト学習(ICL)は、セマンティックな事前とインプット・ラベルのマッピングの影響を受けます。 ラベルをフリップしたICLと意味的無関係なラベルを持つICLの2つのセットアップについて検討した。
    論文  参考訳(メタデータ)   (Tue, 7 Mar 2023 12:24:17 GMT)
  • モデルの大きさによってICLの効き方が異なるという論文 大きなモデルでは先行的に学んだ知識を上書きできるという事、小さなモデルではそれができないというのは非常に面白い。ICLが「ドメインを限定する」のか「内容を加味して判断している」のかがモデルの大きさによって違う?
  • 十分に大きなモデルでは任意のラベルマッピングを行う能力がある?というのは、本当に新たなことを学んでいけると解釈して良いのだろうか。
  • なんでこんなことができるんだろう・・・?

PaLM-E

  • PaLM-E: An Embodied Multimodal Language Model [101.3]
    本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。 我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。 562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
    論文  参考訳(メタデータ)   (Mon, 6 Mar 2023 18:58:06 GMT)
  • 大規模言語モデル(PaLM)と画像(ViT)の融合、マルチモーダルな巨大言語モデルでOK-VQAでSOTA。だけでなく、マルチモーダルなCoTやOCR-freeな数学的推論、multiimage reasoningなど幅広いタスクに対応可能とのこと。2ページの図は衝撃的でRobot Visual Perception, Dialogue, and Planningをみると目を持ったChatGPTのような雰囲気を感じる。
  • プロジェクトサイトはPaLM-E: An Embodied Multimodal Language Model

LLaMA

Introducing LLaMA: A foundational,65-billion-parameter large languagemodel
LLaMAは、研究者がAIのこのサブフィールドで研究を進めるのを助けるために設計された基礎的な大きな言語モデルである。ファンデーションモデルはラベルのない大量のデータをトレーニングするので、さまざまなタスクの微調整に理想的です。

フリーの大規模言語モデルで65BパラメータでGPT-3 (175B)を上回りPaLM(540B)に匹敵とのこと。オープンなモデルではあるがNon-Commercial用途のよう。

GPU-hourの比較が載っているがLLaMA(7B)で82432、LLaMA(65B)は1022362、p4d.24xlargeのオンデマンド価格(8 GPU hour)が32.77 USD、4500円くらいなので、7Bで良ければ5000万円くらいでトレーニングできる(オンデマンドでやる人はいないはずで実態はもっと安いだろうけど…)

主要なデータが英語のEnglish CommonCrawl [67%]、WikipediaとBooksデータは bg, ca, cs, da, de, en, es, fr, hr, hu, it, nl, pl, pt, ro, ru, sl, sr, sv, ukを使用とのことで日本語の性能は期待できなさそう。(他例を見るとそれなりに使えたりもするかもしれないが・・・)

LLaMA: Open and Efficient Foundation Language Models – Meta Research (facebook.com)

GitHub – facebookresearch/llama: Inference code for LLaMA models

Augmented Language Modelのサーベイ

  • Augmented Language Models: a Survey [56.0]
    この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。 私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。 トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
    論文  参考訳(メタデータ)   (Wed, 15 Feb 2023 18:25:52 GMT)
  • CoTのようなサブタスク化した上での推論、外部知識の利用、データベース検索、ツールの利用など大規模言語モデルを拡張するアプローチのサーベイ。reasoning がAugmentedなのか?という問いには「 reasoning is a way for LMs to combine different tools in order to solve complex tasks, and tools are a way to not fail a reasoning with valid decomposition.」との記載があり、分けて語るべきではないという見解?

Towards Agile Text Classifiers for Everyone

  • Towards Agile Text Classifiers for Everyone [10.4]
    本稿では,アジャイルテキスト分類の手法を紹介し,評価する。 そこで本研究では,PaLM 62Bのような高速チューニング型大規模言語モデルに対して,80例までのラベル付きデータセットを適用すれば,最先端のパフォーマンスを実現することができることを示す。 これはテキスト分類のパラダイムシフト、特により安全なオンライン談話をサポートするモデルに有効である、と我々は主張する。
    論文  参考訳(メタデータ)   (Mon, 13 Feb 2023 17:34:13 GMT)
  • 大規模言語モデル+ソフトプロンプトの強力さが分かる論文
  • PaLM 62Bモデルのプロンプトチューニングの場合100以下の事例で十分な性能のテキスト分類器を構築可能とのこと。この方針だと大量のアノテーションを行わなくても良く実用的。GPT-3.5などのfew shotも強力だが、頑張ればアノテーションできる量の情報を過不足なく使うという方針もとても有望だと思う。