gigantic language model – arXiv最新論文の紹介

PANGU-Σ

PanGu-{\Sigma}: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing [64.5]
PanGu-SigmaはAscend 910 AIプロセッサとMindSporeフレームワークのクラスタでトレーニングされている。さまざまな中国のNLPダウンストリームタスクのゼロショット学習において、最先端のパフォーマンスを提供する。
論文参考訳（メタデータ） (Mon, 20 Mar 2023 03:39:27 GMT)
1.085T パラメータの非常に大規模な言語モデル
学習戦略やデータセット、ベンチマーク結果まで詳細を公開している印象。2600億パラメータのERNIE 3.0 Titanよりも性能が優れており、規模の大きさが効いていそうなことが伺える

ROOTS Search Tool

The ROOTS Search Tool: Data Transparency for LLMs [116.6]
ROOTSは、BLOOMのトレーニング用に開発された1.6TBの多言語テキストコーパスである。本稿では,ROOTS 検索ツールについて紹介する。ROOTS コーパス全体を対象とした,ファジィかつ正確な検索機能を備えた検索エンジンである。
論文参考訳（メタデータ） (Mon, 27 Feb 2023 18:45:18 GMT)
大規模多言語コーパスの検索ツールの紹介
残念ながら日本語は対象となっていないデータセットではあるが、検索してみると対訳データなどの形でちょくちょく日本語のテキストが含まれていることが分かる。全体としてどの程度の量が入っているかやそれによって日本語を解釈する能力がどの程度あるのかは興味がある
リポジトリはRoots Search Tool – a Hugging Face Space by bigscience-data

LLaMA

Introducing LLaMA: A foundational,65-billion-parameter large languagemodel
LLaMAは、研究者がAIのこのサブフィールドで研究を進めるのを助けるために設計された基礎的な大きな言語モデルである。ファンデーションモデルはラベルのない大量のデータをトレーニングするので、さまざまなタスクの微調整に理想的です。

フリーの大規模言語モデルで65BパラメータでGPT-3 (175B)を上回りPaLM（540B）に匹敵とのこと。オープンなモデルではあるがNon-Commercial用途のよう。

GPU-hourの比較が載っているがLLaMA（7B）で82432、LLaMA（65B）は1022362、p4d.24xlargeのオンデマンド価格（8 GPU hour）が32.77 USD、4500円くらいなので、7Bで良ければ5000万円くらいでトレーニングできる（オンデマンドでやる人はいないはずで実態はもっと安いだろうけど…）

主要なデータが英語のEnglish CommonCrawl [67%]、WikipediaとBooksデータは bg, ca, cs, da, de, en, es, fr, hr, hu, it, nl, pl, pt, ro, ru, sl, sr, sv, ukを使用とのことで日本語の性能は期待できなさそう。（他例を見るとそれなりに使えたりもするかもしれないが・・・）

LLaMA: Open and Efficient Foundation Language Models – Meta Research (facebook.com)

GitHub – facebookresearch/llama: Inference code for LLaMA models

Crawling the Internal Knowledge-Base of Language Models

Crawling the Internal Knowledge-Base of Language Models [54.0]
本稿では,言語モデルの内部知識ベースである「クローリング」の手順について述べる。我々は、数十のシードエンティティから始まるグラフのクローリングに対するアプローチを評価した。
論文参考訳（メタデータ） (Mon, 30 Jan 2023 12:03:36 GMT)
巨大モデル内にある内部知識をクローリングする方法の提案。知識を活用する文脈でもつかえるが、巨大モデルの知識構造を明らかにしてその理解を進める（さらには修正する）方向での応用が議論されていた。
LMCRAWLという言葉にも面白さを感じる。

ChatGPTとtext-davinci-003

ChatGPT: Optimizing Language Models for Dialogue (openai.com)
極めて強力な対話用の言語モデル。Google検索か！？というレベルで回答をしてくれる。（間違っている場合も多いが…）
Reinforcement Learning from Human Feedback (RLHF)を用いており、GPT-3.5をfine tuningしているとのこと。
11/29に出たtext-davinci-003もGPT-3.5シリーズのモデルでInstructGPT(code-davinci-002)ベースのtext-davinci-002を改善したものとのことで、こちらも性能が高い。NLPを変える可能性を感じている。
Model index for researchers – OpenAI API

BLOOMの論文

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model [266.0]
大規模言語モデル(LLM)は、いくつかのデモや自然言語命令に基づいて新しいタスクを実行できることが示されている。 BLOOMは、176Bパラメータのオープンアクセス言語モデルであり、数百人の研究者の協力により設計・構築されている。 BLOOMは、RATSコーパスでトレーニングされたデコーダのみのトランスフォーマー言語モデルである。
論文参考訳（メタデータ） (Wed, 9 Nov 2022 18:48:09 GMT)
オープンなLLM、bigscience/bloom · Hugging Faceの論文
オープンな巨大モデルは貴重であり自然言語処理分野での重要な研究成果。関わっている研究者も非常に多い。使用したデータセットに日本語が入っていない点は残念。ただ、Codeとして含まれていな内容を通じてか日本語も一定レベルで処理が可能であるのは興味深い。

What Language Model to Train if You Have One Million GPU Hours

What Language Model to Train if You Have One Million GPU Hours? [54.3]
モデリングの実践の違いがゼロショット一般化に与える影響について検討する。また、多言語モデルの性能と、英語のみとの比較についても検討する。私たちのモデルとコードは、https://huggingface.co/bigscience.comでオープンソース化されています。
論文参考訳（メタデータ） (Thu, 27 Oct 2022 13:43:27 GMT)
- 100万GPU Hoursの予算で最適なモデルを探索した、BLOOM(Big Science Large Open-science Open- Access Multilingual Language Model)の構築プロセスをまとめた論文
- この規模のモデル構築を行う機会があるかは置いておいて検討プロセスがとても参考になる

Transcending Scaling Laws with 0.1% Extra Compute

Transcending Scaling Laws with 0.1% Extra Compute [128.1]
言語モデルをスケールすることでパフォーマンスが向上するが、計算コストは大幅に向上する。本稿では,既存の言語モデルとそのスケーリング曲線を,比較的少量の余剰計算で大幅に改善するUL2Rを提案する。ほぼ無視可能な余分な計算コストと新しいデータソースがなければ、ダウンストリームメトリクス上の大規模言語モデルのスケーリング特性を大幅に改善できることを示す。
論文参考訳（メタデータ） (Thu, 20 Oct 2022 16:46:41 GMT)
- 0.1 %と少ない計算量を使用するUL2Rで性能が大幅に向上するとの論文
  - 論文中の表記だとUL2: Uniﬁed language learner Restore ? R: Restore?
  - UL2 20B: An Open Source Unified Language Learner – Google AI Blog (googleblog.com)でdenoiserを混合するアプローチ
  - Fugu-MT 論文翻訳(概要): Unifying Language Learning Paradigms (fugumt.com)
- 処理を行ったU-PaLMは、英語のNLPタスク(例えば、常識推論、質問応答)、連鎖思考(eg、GSM8K)、多言語タスク(MGSM、TydiQA)、MMLU、BIG-Benchタスクなどでfew-shot PaLMよりも優れているとのこと。

Scaling Instruction-Finetuned Language Models

Scaling Instruction-Finetuned Language Models [126.5]
命令として表現されたデータセットの集合上での言語モデルの微調整は、モデル性能を改善することが示されている。命令の微調整により,様々なモデルクラスの性能が劇的に向上することがわかった。
論文参考訳（メタデータ） (Thu, 20 Oct 2022 16:58:32 GMT)
- 1,836のタスクでfine tuning（instruction finetuning）することで様々なタスクに対する性能が向上したとする論文。PaLMに対してinstruction fine tuningを行ったFlan-PaLM 540BはもともとのPaLMを大幅に性能改善し、five-shot MMLUでSoTA。使用するタスクサイズが増えるほど性能向上傾向がみられるが、282タスクで概ね頭打ちになっている
  - それ以上増やしても新たな知識を提供していないのでは？もしくは言語モデル内の知識を表現するために一定以上のタスクは役に立たないのでは？との指摘があるが、新たな知識・情報を提供するための条件にめっちゃ興味がある。
- 下記にFlan-T5のチェックポイントが公開されている。PaLM 62Bよりfew-shot性能が優れているとのこと。
  - t5x/models.md at main · google-research/t5x (github.com)

GLM-130B

GLM-130B: An Open Bilingual Pre-trained Model [40.6]
我々は,130億のパラメータを持つバイリンガル(英語と中国語)事前学習言語モデルであるGLM-130Bを紹介する。 100Bスケールのモデルを少なくともGPT-3と同程度にオープンソース化する試みである。本稿では, GLM-130Bの設計選択, 効率と安定性の両面でのトレーニング戦略, エンジニアリングの取り組みを含む, GLM-130B のトレーニングプロセスを紹介する。
論文参考訳（メタデータ） (Wed, 5 Oct 2022 17:34:44 GMT)
- 英語・中国語バイリンガルな大規模言語モデル、モデルやトレーニングプロセスが公開されている、性能が高い以外にもRTX 3090 (24G)×4という構成で動作可能なのは凄い
- リポジトリはTHUDM/GLM-130B: GLM-130B: An Open Bilingual Pre-Trained Model (github.com)

2025年10月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31