EIPE-text: Evaluation-guided Iterative Plan Extraction for long-form narrative text generation

  • EIPE-text: Evaluation-Guided Iterative Plan Extraction for Long-Form Narrative Text Generation [114.5]
    長文物語テキスト生成のための評価誘導反復計画抽出法(EIPE-text)を提案する。 EIPEテキストには、計画抽出、学習、推論の3段階がある。 小説やストーリーテリングの分野におけるEIPEテキストの有効性を評価する。
    論文  参考訳(メタデータ)   (Thu, 12 Oct 2023 10:21:37 GMT)
  • 長文生成のためのフレームワーク、plan extraction, learning, inferenceからなり、計画時にQAベースの評価を行うのが特徴的。学習ステップでは in-context learningの適用も想定されており、一般的な学習とは若干異なる動きでも効果があるよう。

LongBench

  • LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [59.6]
    LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。 英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
    論文  参考訳(メタデータ)   (Mon, 28 Aug 2023 11:53:40 GMT)
  • LLM評価を前提としたベンチマークであり、バイリンガルかつ長文を対象としたもの。対象のタスクはMulti-document QA, Single-document QA, Summarization, Few-shot learning(「TREC: A classification task that requires categorizing questions, includes 50 categories in total」など), Synthetic Tasks(「PassageRetrieval-en: Given 30 English Wikipedia paragraphs, determine which paragraph the given summary corresponds to」など), Code Completionとのこと。カテゴリに若干違和感があるがタスクの詳細はLongBench/task.md at main · THUDM/LongBench · GitHubで様々な観点が入っている。ChatGLM2-6B-32kはかなり優秀のよう。
  • リポジトリはGitHub – THUDM/LongBench: LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding

L-Eval

  • L-Eval: Instituting Standardized Evaluation for Long Context Language Models [45.8]
    長い文脈言語モデルは、1ターンの長い入力(例えば、論文の要約)を処理し、より広範な歴史と会話することができる。 L-Evalは411の長いドキュメントと2000以上のクエリ応答ペアを手動でアノテートし、著者によってチェックされる。 私たちの調査結果は、オープンソースモデルは一般的に商用モデルよりも遅れているものの、それでも素晴らしいパフォーマンスを示していることを示唆しています。
    論文  参考訳(メタデータ)   (Thu, 20 Jul 2023 17:59:41 GMT)
  • 長文を扱うベンチマークでタスクは様々(選択式の質問回答、Question Answering、要約など)、「GPT3.5-16k and Claude-100k are more advanced compared to the open-source models」とのことでこの差が縮まっていくか興味津々
  • リポジトリはGitHub – OpenLMLab/LEval: Data and code for L-Eval, a comprehensive long context language models evaluation benchmark

LongNet

  • LongNet: Scaling Transformers to 1,000,000,000 Tokens [114.8]
    LongNetはTransformerの変種で、シーケンス長を10億以上のトークンに拡張できる。 我々の研究は、例えば、コーパス全体やインターネット全体をシーケンスとして扱うなど、非常に長いシーケンスをモデリングする新たな可能性を開く。
    論文  参考訳(メタデータ)   (Wed, 5 Jul 2023 17:59:38 GMT)
  • 1Bトークンが扱える構造の提案。Dilated Attention によって計算量を削減している。が、下流タスクでの性能が書かれていないのが残念。。。
  • プロジェクトサイトはAdvancing AGI for humanity | Foundation of AGI (thegenerality.com)

Unlimiformer

CoLT5

  • CoLT5: Faster Long-Range Transformers with Conditional Computation [48.5]
    我々は、CoLT5がLongT5よりもはるかに高速なトレーニングと推論でパフォーマンスを実現していることを示す。 CoLT5は、非常に長い入力を効果的に、かつ、トラクタブルに利用でき、64kまでの入力長が強い。
    論文  参考訳(メタデータ)   (Fri, 17 Mar 2023 03:28:17 GMT)
  • 最大64kトークンに対応できる手法の提案、SCROLLSベンチマークでSOTA

A Survey on Long Text Modeling with Transformers

  • A Survey on Long Text Modeling with Transformers [33.9]
    本稿では,Transformerモデルに基づく長文モデリングの最近の進歩について概説する。 長さ制限を満たすために長い入力を処理し、改良されたTransformerアーキテクチャを設計する方法について論じる。 本稿では,長文モデリングに関わる4つの典型的な応用について述べるとともに,今後の方向性を議論する。
    論文  参考訳(メタデータ)   (Tue, 28 Feb 2023 11:34:30 GMT)
  • 長文モデリングに関するサーベイ。近年の研究成果で緩和されている部分も大きいが以前重要なテーマ。
  • 対象としている典型的な応用はテキスト要約、質問応答、テキスト分類、テキストマッチングの4つ。

Mega: Moving Average Equipped Gated AttentionとBART-LS

  • Mega: Moving Average Equipped Gated Attention [150.3]
    メガ (Mega) は、(予備的な)移動平均を備えた単純で理論上は接地された単頭誘導式アテンション機構である。 我々はMegaがトランスフォーマーの変種や最近の状態空間モデルを含む他のシーケンスモデルよりも大幅に改善されていることを示す。
    論文  参考訳(メタデータ)   (Wed, 21 Sep 2022 20:52:17 GMT)
    • Transformerを用いたNLPが流行しているが、長文対応は依然として大きな課題。アテンションに移動平均を適用して優れた性能を達成という報告。
    • シンプルな構造だが結果は強力とのこと。なんかLSTMっぽい。
  • Adapting Pretrained Text-to-Text Models for Long Text Sequences [39.6]
    我々は、時系列入力に既存の事前訓練されたテキスト・ツー・テキスト・モデルを適用する。 長文QAタスク上での競合性能を実現するための長文モデルを構築した。
    論文  参考訳(メタデータ)   (Wed, 21 Sep 2022 00:41:07 GMT)
    • 同日に出ていた長文対応の論文。こちらでは様々な手法を比較したうえで「アテンションをpooling-augmented blockwise attentionに置き換え」「長短スパンを混合したT5 スタイルのdenoising loss」「C4をランダムに連結した長文の事前学習データ」を取り入れている。
    • リポジトリはhttps://github.com/facebookresearch/bart_lsとのことだが、現時点では404

SLED(SLidingEncoder and Decoder): 短文用モデルを長文に適用する手法

  • Efficient Long-Text Understanding with Short-Text Models [38.8]
    SLEDは、バトルテストされた短文事前訓練されたLMを再利用し活用する、長いシーケンスを処理するための単純なアプローチである。 入力を重なり合うチャンクに分割し、それぞれを短文のLMエンコーダでエンコードし、事前訓練されたデコーダを使用してチャンク間で情報を融合する。 SLEDは、最大50倍の大きさで、専用で高価な事前訓練ステップを必要とする特殊なモデルと競合している。
    論文  参考訳(メタデータ)   (Mon, 1 Aug 2022 11:14:39 GMT)

SCROLLS(Standardized CompaRison Over Long Language Sequences): 長いシーケンスに対する自然言語処理

  • SCROLLS: Standardized CompaRison Over Long Language Sequences [62.6]
    SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。 SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。 すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
    論文  参考訳(メタデータ)   (Mon, 10 Jan 2022 18:47:15 GMT)