長文 – ページ 2 – arXiv最新論文の紹介

Data Engineering for Scaling Language Models to 128K Context

Data Engineering for Scaling Language Models to 128K Context [98.4]
本研究では,言語モデルの文脈長を128Kまで拡張するための継続事前学習法について検討する。長いコンテキストモデリング、特にthe ability to use information at any input locations は、主に大規模事前トレーニングによって既に獲得されている機能であり、この能力は、適切なデータ混合上での軽量な連続的事前トレーニングを通じて、トレーニング中(例えば、4kから128k)において、かなり長いコンテキストに拡張できると仮定する。我々のレシピは強力なオープンソース長文モデルより優れており、GPT-4 128Kのようなフロンティアモデルとのギャップを埋めている。
論文参考訳（メタデータ） (Thu, 15 Feb 2024 18:19:16 GMT)
長文対応のためのレシピ。「the ability to utilize information at arbitrary locations within the 128K input is already mostly acquired by large-scale pretraining, even for models pretrained on substantially shorter 4K context.」というのは興味深い。
リポジトリはFranxYao/Long-Context-Data-Engineering: Implementation of paper Data Engineering for Scaling Language Models to 128K Context (github.com)

EIPE-text: Evaluation-guided Iterative Plan Extraction for long-form narrative text generation

EIPE-text: Evaluation-Guided Iterative Plan Extraction for Long-Form Narrative Text Generation [114.5]
長文物語テキスト生成のための評価誘導反復計画抽出法(EIPE-text)を提案する。 EIPEテキストには、計画抽出、学習、推論の3段階がある。小説やストーリーテリングの分野におけるEIPEテキストの有効性を評価する。
論文参考訳（メタデータ） (Thu, 12 Oct 2023 10:21:37 GMT)
長文生成のためのフレームワーク、plan extraction, learning, inferenceからなり、計画時にQAベースの評価を行うのが特徴的。学習ステップでは in-context learningの適用も想定されており、一般的な学習とは若干異なる動きでも効果があるよう。

LongBench

LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [59.6]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文参考訳（メタデータ） (Mon, 28 Aug 2023 11:53:40 GMT)
LLM評価を前提としたベンチマークであり、バイリンガルかつ長文を対象としたもの。対象のタスクはMulti-document QA, Single-document QA, Summarization, Few-shot learning（「TREC: A classification task that requires categorizing questions, includes 50 categories in total」など）, Synthetic Tasks（「PassageRetrieval-en: Given 30 English Wikipedia paragraphs, determine which paragraph the given summary corresponds to」など）, Code Completionとのこと。カテゴリに若干違和感があるがタスクの詳細はLongBench/task.md at main · THUDM/LongBench · GitHubで様々な観点が入っている。ChatGLM2-6B-32kはかなり優秀のよう。
リポジトリはGitHub – THUDM/LongBench: LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding

L-Eval

L-Eval: Instituting Standardized Evaluation for Long Context Language Models [45.8]
長い文脈言語モデルは、1ターンの長い入力(例えば、論文の要約)を処理し、より広範な歴史と会話することができる。 L-Evalは411の長いドキュメントと2000以上のクエリ応答ペアを手動でアノテートし、著者によってチェックされる。私たちの調査結果は、オープンソースモデルは一般的に商用モデルよりも遅れているものの、それでも素晴らしいパフォーマンスを示していることを示唆しています。
論文参考訳（メタデータ） (Thu, 20 Jul 2023 17:59:41 GMT)
長文を扱うベンチマークでタスクは様々（選択式の質問回答、Question Answering、要約など）、「GPT3.5-16k and Claude-100k are more advanced compared to the open-source models」とのことでこの差が縮まっていくか興味津々
リポジトリはGitHub – OpenLMLab/LEval: Data and code for L-Eval, a comprehensive long context language models evaluation benchmark

LongNet

LongNet: Scaling Transformers to 1,000,000,000 Tokens [114.8]
LongNetはTransformerの変種で、シーケンス長を10億以上のトークンに拡張できる。我々の研究は、例えば、コーパス全体やインターネット全体をシーケンスとして扱うなど、非常に長いシーケンスをモデリングする新たな可能性を開く。
論文参考訳（メタデータ） (Wed, 5 Jul 2023 17:59:38 GMT)
1Bトークンが扱える構造の提案。Dilated Attention によって計算量を削減している。が、下流タスクでの性能が書かれていないのが残念。。。
プロジェクトサイトはAdvancing AGI for humanity | Foundation of AGI (thegenerality.com)

Unlimiformer

Unlimiformer: Long-Range Transformers with Unlimited Length Input [74.5]
Unlimiformerはすべてのレイヤの注意をひとつの$k$-nearest-neighborインデックスにオフロードする。 BookSumデータセットから350kのトークン長の入力を、テスト時に入力トランケーションなしでまとめることができる。
論文参考訳（メタデータ） (Tue, 2 May 2023 17:35:08 GMT)
長文を扱えるTransformer、Unlimiformerという名前が凄い
仕組み上バックボーンには様々なモデルが使えそう。でもこれで○○formerと名乗ってよいかは謎。（有用そうであることは確か）
リポジトリはGitHub – abertsch72/unlimiformer: Public repo for the preprint “Unlimiformer: Long-Range Transformers with Unlimited Length Input”

CoLT5

CoLT5: Faster Long-Range Transformers with Conditional Computation [48.5]
我々は、CoLT5がLongT5よりもはるかに高速なトレーニングと推論でパフォーマンスを実現していることを示す。 CoLT5は、非常に長い入力を効果的に、かつ、トラクタブルに利用でき、64kまでの入力長が強い。
論文参考訳（メタデータ） (Fri, 17 Mar 2023 03:28:17 GMT)
最大64kトークンに対応できる手法の提案、SCROLLSベンチマークでSOTA

A Survey on Long Text Modeling with Transformers

A Survey on Long Text Modeling with Transformers [33.9]
本稿では,Transformerモデルに基づく長文モデリングの最近の進歩について概説する。長さ制限を満たすために長い入力を処理し、改良されたTransformerアーキテクチャを設計する方法について論じる。本稿では,長文モデリングに関わる4つの典型的な応用について述べるとともに,今後の方向性を議論する。
論文参考訳（メタデータ） (Tue, 28 Feb 2023 11:34:30 GMT)
長文モデリングに関するサーベイ。近年の研究成果で緩和されている部分も大きいが以前重要なテーマ。
対象としている典型的な応用はテキスト要約、質問応答、テキスト分類、テキストマッチングの4つ。

Mega: Moving Average Equipped Gated AttentionとBART-LS

Mega: Moving Average Equipped Gated Attention [150.3]
メガ (Mega) は、(予備的な)移動平均を備えた単純で理論上は接地された単頭誘導式アテンション機構である。我々はMegaがトランスフォーマーの変種や最近の状態空間モデルを含む他のシーケンスモデルよりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (Wed, 21 Sep 2022 20:52:17 GMT)
- Transformerを用いたNLPが流行しているが、長文対応は依然として大きな課題。アテンションに移動平均を適用して優れた性能を達成という報告。
- シンプルな構造だが結果は強力とのこと。なんかLSTMっぽい。

Adapting Pretrained Text-to-Text Models for Long Text Sequences [39.6]
我々は、時系列入力に既存の事前訓練されたテキスト・ツー・テキスト・モデルを適用する。長文QAタスク上での競合性能を実現するための長文モデルを構築した。
論文参考訳（メタデータ） (Wed, 21 Sep 2022 00:41:07 GMT)
- 同日に出ていた長文対応の論文。こちらでは様々な手法を比較したうえで「アテンションをpooling-augmented blockwise attentionに置き換え」「長短スパンを混合したT5 スタイルのdenoising loss」「C4をランダムに連結した長文の事前学習データ」を取り入れている。
- リポジトリはhttps://github.com/facebookresearch/bart_lsとのことだが、現時点では404

SLED(SLidingEncoder and Decoder): 短文用モデルを長文に適用する手法

Efficient Long-Text Understanding with Short-Text Models [38.8]
SLEDは、バトルテストされた短文事前訓練されたLMを再利用し活用する、長いシーケンスを処理するための単純なアプローチである。入力を重なり合うチャンクに分割し、それぞれを短文のLMエンコーダでエンコードし、事前訓練されたデコーダを使用してチャンク間で情報を融合する。 SLEDは、最大50倍の大きさで、専用で高価な事前訓練ステップを必要とする特殊なモデルと競合している。
論文参考訳（メタデータ） (Mon, 1 Aug 2022 11:14:39 GMT)
- 短いテキストを処理するモデルをうまく利用して長文を処理するフレームワークの提案。
  - 非常に強力な手法そうであるがこの方針でdecodeがうまくいく理由が腑に落ちない・・・
- リポジトリはGitHub – Mivg/SLED: The official repository for Efficient Long-Text Understanding Using Short-Text Models (Ivgi et al., 2022) paper

2025年6月
月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30