大規模事前学習 – ページ 3 – arXiv最新論文の紹介

Petals: 大規模NLPモデルの協調推論と微調整

Petals: Collaborative Inference and Fine-tuning of Large Models [78.4]
多くのNLPタスクは、1000億以上のパラメータを持つ大きな言語モデル(LLM)を使用することで恩恵を受ける。 BLOOM-176BとOPT-175Bのリリースにより、誰もがこのスケールで事前訓練されたモデルをダウンロードできる。我々は,大規模モデルの推測と微調整を協調的に行うシステムとして,Petalsを提案する。
論文参考訳（メタデータ） (Fri, 2 Sep 2022 17:38:03 GMT)
- 大規模モデルを分散して利用できるシステムの提案。コンピューティングリソースを共有しての実行が可能でパブリックなリソースとして自分の環境を共有することも可能なよう（SETI@HOMEを思い出した）
- プロジェクトサイトはPetals – Decentralized platform for running 100B+ language models

Fengshenbang : 中国のFoundationモデル構築プロジェクト

Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence [34.5]
我々は,認知コンピューティング・自然言語研究センター(CCNL)が主導するFengshenbangというオープンソースプロジェクトを紹介した。私たちのプロジェクトには、大規模な事前トレーニングモデル、ユーザフレンドリなAPI、ベンチマーク、データセットなど、包括的な機能があります。オープンソースロードマップであるFengshenbangは、中国の事前訓練された大規模モデルのオープンソースコミュニティを再評価することを目的としている。
論文参考訳（メタデータ） (Wed, 7 Sep 2022 07:32:37 GMT)
- 中国語の大規模モデルのオープンソースプロジェクト。多くのタスクに対応しているようで非常にうらやましい。
- プロジェクトサイトは封神榜中文语言预训练模型开源计划 — Fengshenbang-LM 1.0 文档 (fengshenbang-doc.readthedocs.io)

大規模言語モデルにおけるショートカットのサーベイ

Shortcut Learning of Large Language Models in Natural Language Understanding: A Survey [119.5]
大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。予測のショートカットとしてデータセットのバイアスやアーティファクトに依存するかも知れません。これは彼らのアウト・オブ・ディストリビューション(OOD)と敵の堅牢性を著しく損なう。
論文参考訳（メタデータ） (Thu, 25 Aug 2022 03:51:39 GMT)
- 大規模言語モデルにはロバストでない特徴量を学習（shortcut learning）した結果がふくまれOODなデータに対して性能劣化が著しい。このようなshortcut learning問題をサーベイした論文。
- 機械翻訳などにおいても悩ましい問題であるが緩和策へのポインタも示されていて参考になる。
  - 論文でも触れられているが、まずは性能が著しく減少しているかの正しいテストが重要だと思う。

LabサイズリソースでのT5モデルの構築

Training a T5 Using Lab-sized Resources [10.8]
大きなデータセットで大規模なニューラルネットワークモデルをトレーニングするのは、リソースと時間集約的です。本稿では, 研究機関が持つであろう資源を用いて, 大規模言語モデルを訓練し, (b) 妥当な時間で学習するための様々な手法を提案する。
論文参考訳（メタデータ） (Thu, 25 Aug 2022 13:55:16 GMT)
デンマーク語のT5モデルを普通のラボが持つ程度の環境で構築するための手法提案。使用したリソースは「AMD EPYC 7252 8-Core CPUs×2、 128 GB of RAM、 NVIDIA A100 (40 GB RAM) ×4」のシングルノードとのことで、ノード間分散無し・複数GPUと大規模でない環境（複数ノードまでは持っていない or AWSで簡単に構築できる）として現実的なものだと思う。
- かかった時間はsmallで91時間、largeで508時間と書かれている。仮にAWSのp4d.24xlargeを使い（GPUが8個なので）半分の時間で終わるとすると、largeの学習が8300USD（100万円ちょっと）でできることになる。
構築結果は「strombergnlp/dant5-small · Hugging Face」と「strombergnlp/dant5-large · Hugging Face」とのこと。

BEiT-3

Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks [87.6]
汎用多目的基礎モデルBEiT-3を紹介する。視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
論文参考訳（メタデータ） (Mon, 22 Aug 2022 16:55:04 GMT)
- vision、vision-languageの複数のタスクでSoTAを達成するfoundation model
- 画像を外国語（言語）として扱いその後の処理を行っていることが高性能のカギという興味深い主張。Imglishという言葉も面白い。
- プロジェクトサイトはunilm/beit at master · microsoft/unilm (github.com)

PromptIDE: プロンプト作成用のIDE

Interactive and Visual Prompt Engineering for Ad-hoc Task Adaptation with Large Language Models [116.3]
最先端のニューラルネットワークモデルは、教師付きトレーニングを必要とせずに、アドホックな言語タスクを解決するために使用することができる。 PromptIDEを使えば、ユーザはプロンプトのバリエーションを試すことができ、プロンプトのパフォーマンスを視覚化し、反復的にプロンプトを最適化できる。
論文参考訳（メタデータ） (Tue, 16 Aug 2022 17:17:53 GMT)
- ついに出た（？）自然言語処理で主流になりつつあるprompt用のIDE。著者にHugging Faceに所属している方がいるのも時代を感じる。
- プロジェクトサイトはInteractive PromptIDE (vizhub.ai)

AlexaTM 20B

AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model [25.9]
マルチリンガルな大規模シーケンス・ツー・シーケンス(seq2seq)モデルは、様々なタスクにおけるデコーダのみのモデルよりも、より効率的であることを示す。我々は、Alexa Teacher Model (AlexaTM 20B)と呼ばれる200億のパラメータのSeq2seqモデルをトレーニングし、1ショットの要約タスクで最先端(SOTA)のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (Tue, 2 Aug 2022 13:30:07 GMT)
- 大規模なマルチリンガルseq2seqモデルの提案、要約タスクでSoTAとのこと。
- リポジトリはGitHub – amazon-research/alexa-teacher-models

Measuring Causal Effects of Data Statistics on Language Model’s `Factual’ Predictions

Measuring Causal Effects of Data Statistics on Language Model’s `Factual’ Predictions [59.3]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文参考訳（メタデータ） (Thu, 28 Jul 2022 17:36:24 GMT)
- 言語モデルにおいて[MASK]の中を共起関係（相関）で予測しているのか、意味的な背景があって予測しているのかは不明瞭である。因果推論のフレームワークで妥当に推測ができているの確認可能という報告。

FashionViL: ファッションにフォーカスした画像-言語モデル

FashionViL: Fashion-Focused Vision-and-Language Representation Learning [129.5]
ファッション中心の視覚・言語(V+L)表現学習フレームワークFashionViLを提案する。特に2つの本質的な属性とファッションV+Lデータを活用するために設計された、2つの新しいファッション特化事前学習タスクを含んでいる。大規模な実験により、FashionViLは5つの下流タスクにまたがって新しい最先端の技術を達成していることがわかった。
論文参考訳（メタデータ） (Sun, 17 Jul 2022 12:06:27 GMT)
- ファッション用のRepresentation Learningフレームワークの提案。MVC: Multi-view contrastive learning (ファッションの画像は様々な方向から撮影されていることを利用)、PAC: PseudoAttribute Classification (ファッションアイテムで同じ属性を持つものをまとめられる)などを利用し複数のタスクでSoTAを主張。
  - ドメインに応じた事前学習の有効性が分かる結果だと思う
- リポジトリはGitHub – BrandonHanx/mmf: [ECCV 2022] FashionViL: Fashion-Focused V+L Representation Learning

Clover: Correlated Video-Language pre-training method

Clover: Towards A Unified Video-Language Alignment and Fusion Model [154.1]
さまざまなビデオ理解タスク(テキストビデオ検索、ビデオ質問応答など)を解決するためのユニバーサルビデオ言語モデルの構築は、機械学習分野に対するオープンチャレンジである。複数のビデオ理解タスクを、パフォーマンスと効率の妥協を伴わずに解決するための普遍的なビデオ言語モデルに対して、Cloverを紹介します。新たなtri-modal alignment pre-trainingタスクにより、クロスモーダル特徴のアライメントと融合を改善する。 Cloverは、複数のダウンストリームタスクに新しい最先端技術を確立する。
論文参考訳（メタデータ） (Sat, 16 Jul 2022 09:38:52 GMT)
- マルチモーダルな事前学習モデルの提案。Text to Video RetrievalやVideo Question Answeringにおいて、VIOLETやMERLOT、MCQに対し優位性を主張
- リポジトリはGitHub – LeeYN-43/Clover: Offical PyTorch implementation of Clover: Towards A Unified Video-Language Alignment and Fusion Model

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31