大規模事前学習 – arXiv最新論文の紹介

Sequential Modeling Enables Scalable Learning for Large Vision Models

Sequential Modeling Enables Scalable Learning for Large Vision Models [120.9]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文参考訳（メタデータ） (Fri, 1 Dec 2023 18:59:57 GMT)
ピクセル以外の情報を用いないモデルの提案、プロンプトもピクセル。「So, we graciously hand over to you, our gentle reader, the task of pondering whether our modest LVM also exhibits the much-vaunted ‘Sparks of AGI’.」というコメントが面白く、熱い。
プロジェクトサイトはLarge Vision Models (yutongbai.com)

PaLI-X

PaLI-X: On Scaling up a Multilingual Vision and Language Model [167.0]
マルチ言語ビジョンと言語モデルであるPaLI-Xをスケールアップする際のトレーニングレシピと結果を示す。我々のモデルは、多種多様な複雑なタスクにおいて、新しいレベルのパフォーマンスを達成する。複雑なカウントや多言語オブジェクト検出といった,トレーニングミックスに明示的に含まれないタスクの出現を観察する。
論文参考訳（メタデータ） (Mon, 29 May 2023 18:58:38 GMT)
PaLI: Pathways Language and Image – arXiv最新論文の紹介 (devneko.jp)の新バージョン（？）、Vision-Languageなタスクで優れた性能を達成
モデルアーキテクチャはViT 22B + UL2 32B？

EVA-02: A Visual Representation for Neon Genesis

EVA-02: A Visual Representation for Neon Genesis [49.9]
EVA-02はトランスフォーマーをベースとした次世代の視覚表現で、頑丈で堅牢な言語対応の視覚機能を再構築するために事前訓練されている。モデルサイズは6Mから304Mのパラメータで、4種類のEVA-02が提供されています。
論文参考訳（メタデータ） (Wed, 22 Mar 2023 14:10:37 GMT)
非常に規模が大きいわけでもないが強力なVision Transformersの提案。オープンライセンスのモデルが公開されている。
リポジトリはEVA/EVA-02 at master · baaivision/EVA · GitHub

XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked Language Models

XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked Language Models [87.7]
我々は,言語間のトークン共有を非強調にすることで,非常に大きな多言語語彙に拡張する新たなアプローチを提案する。我々は100万のトークン語彙を持つ多言語言語モデルであるXLM-Vを訓練する。 XLM-Vは、自然言語推論(XNLI)から質問応答(MLQA)、名前付きエンティティ認識(WikiAnn)まで幅広いタスクでXLM-Rより優れています。
論文参考訳（メタデータ） (Wed, 25 Jan 2023 09:15:17 GMT)
多言語モデルで問題（かつ議論）となる語彙に関する論文。100万語彙を持つモデルを学習し優れた性能を出しているのはすごい。
「Most notably, we provide evidence showing that expanding the vocabulary beyond 1M tokens can degrade performance on downstream tasks」というのも興味深い。

Large Language Models as Corporate Lobbyist、GPT Takes the Bar Exam

Large Language Models as Corporate Lobbyists [0.0]
自己回帰的な大きな言語モデルは、提案されたアメリカ合衆国議会法案が特定の公共企業に関連するかどうかを決定する。モデルが関連するものとみなす法案について、モデルは、提案された法律を変更するよう議会に説得するために、法案のスポンサーに手紙を起草する。
論文参考訳（メタデータ） (Wed, 4 Jan 2023 16:55:35 GMT)
AIを使ってロビー活動ができるのかを検討した報告。やろうと思えばそれっぽいことが可能になってきていると感じる。
（正当な目的にも使えるとはいえ）SPAMといえばSPAMのような気はするが、どう扱うかは悩ましい問題。
GitHub – JohnNay/llm-lobbyist: Code for the paper: “Large Language Models as Corporate Lobbyists” (2023).

GPT Takes the Bar Exam [0.0]
GPT-3.5 と呼ばれる OpenAI のtext-davinci-003 モデルの性能評価実験を行った。最良のプロンプトとパラメータのために、GPT-3.5はNCBE MBEの試験で50.3%の見出し正解率を達成している。
論文参考訳（メタデータ） (Thu, 29 Dec 2022 18:19:43 GMT)
GPT-3(3.5)を米国の弁護士試験に適用してみたとの報告。2つのカテゴリでは合格水準にあるとのこと。

What do LLMs Know about Financial Markets? A Case Study on Reddit Market Sentiment Analysis

What do LLMs Know about Financial Markets? A Case Study on Reddit Market Sentiment Analysis [15.2]
ソーシャルメディアコンテンツに対する市場の感情分析には、金融市場とソーシャルメディアのジャーゴンの両方の知識が必要である。我々のパイプラインは、大きな言語モデル(LLM)を用いたReddit投稿の弱い財務感情ラベルを生成する。少数のプロンプトだけで、最終モデルは既存の教師付きモデルと同等に実行される。
論文参考訳（メタデータ） (Wed, 21 Dec 2022 19:11:19 GMT)
大規模言語モデルから知識を得て小さなモデルを学習、ベースラインよりも優れた性能を達成、という報告。金融領域というのも興味深い。（本論ではないがPaLM＋CoTめっちゃ優秀やなという感想）

Large Language Models Encode Clinical Knowledge

Large Language Models Encode Clinical Knowledge [21.6]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文参考訳（メタデータ） (Mon, 26 Dec 2022 14:28:24 GMT)
FLAN-PaLM+様々なテクニックおよびFLAN-PaLM＋instruction prompt tuningで構築したMed-PaLMにより様々な医療分野のベンチマークでSoTA
人間（医者）には及んでいないものの試験合格水準にあるように見え、衝撃的な結果…

DIONYSUS: dynamic input optimization in pre-training for dialogue summarization

DIONYSUS: A Pre-trained Model for Low-Resource Dialogue Summarization [127.7]
DIONYSUSは、任意の新しいドメインでの対話を要約するための訓練済みエンコーダデコーダモデルである。実験の結果,DIONYSUSは6つのデータセット上で既存の手法よりも優れていた。
論文参考訳（メタデータ） (Tue, 20 Dec 2022 06:21:21 GMT)
対話要約のための事前学習モデル。特にトレーニング例が少ない場合の性能が高く、PEGASUSを上回る。また、10例の学習で1000例でfine tuningしたT5を上回るとのこと。

Language Models as Inductive Reasoners

Language Models as Inductive Reasoners [141.3]
本稿では,自然言語の事実から自然言語規則を誘導するタスクを提案する。自然言語を論理言語ではなく知識の表現として使用し、事前学習した言語モデルを「推論者」として使用します。我々は、事前訓練された言語モデルが自然言語の事実から自然言語規則をいかに誘導できるかを、初めてかつ包括的な分析を行う。
論文参考訳（メタデータ） (Wed, 21 Dec 2022 11:12:14 GMT)
言語モデルにより帰納法を実現できるかの研究。モデル構築も評価も難しい問題。
本件のために12K規模のデータセットを作成、chain-of-language-models (CoLM)というフレームワークを提案、ベースラインを超えたと主張。
（ただし性能は高くなさそう…）
コードなどは公開予定とのこと

PAL: Program-aided Language Models

PAL: Program-aided Language Models [112.9]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。 PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文参考訳（メタデータ） (Fri, 18 Nov 2022 18:56:13 GMT)
LLMにより問題を読み、中間推論用のプログラムを出力、それを実行することにより問題を解く方法（PAL: Program-Aided Language models ）を提案。GSM8Kなど多くのベンチマークで chain-of-thoughtを超え、SoTAとのこと。
プロジェクトサイトはPAL: Program-aided Language Models (reasonwithpal.com)

2025年11月
月	火	水	木	金	土	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30