長文 – arXiv最新論文の紹介

InfLLM

InfLLM: Unveiling the Intrinsic Capacity of LLMs for Understanding Extremely Long Sequences with Training-Free Memory [99.2]
InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。本稿では,LLMのストリーミング長列処理能力を明らかにするために,トレーニング不要なメモリベースのInfLLMを提案する。
論文参考訳（メタデータ） (Wed, 7 Feb 2024 06:50:42 GMT)
長文に対応するための構造をもったLLM、1024Kトークでも有効とのこと

SORAとGemini-1.5

先週話題となったニュースにテキストからのビデオ生成モデルであるOpenAIのSORA、極めて長いテキストを扱えるGoogleのGemini 1.5がある。両発表とも技術が一段進化した感がある。

Reka（Reka Flash: An Efficient and Capable Multimodal Language Model – Reka AI）のようなチャレンジャーも出てきていてニュースが多い。

Video generation models as world simulators
私たちはAIに、動作中の物理世界を理解し、シミュレートするように教えています。ビデオと画像の潜在コード上の時空間パッチを扱うトランスフォーマーアーキテクチャを活用しています。Soraは、視覚的品質とユーザのプロンプトへの固執を維持しながら、最大1分間のビデオを生成することができる。
Sora (openai.com)
Video generation models as world simulators (openai.com)
既存研究（例えばLumiere – arXiv最新論文の紹介 (devneko.jp)、Lumiere (lumiere-video.github.io)やMagicVideo-V2: Multi-Stage High-Aesthetic Video Generation (magicvideov2.github.io)）もすごかったが、本件は生成可能な動画の長さと自然さでかなり進んでいる印象。

Gemini 1.5: Unlocking multimodalunderstanding across millions of tokens ofcontext
Gemini 1.5 Proは、きめ細かい情報をリコールして推論できる計算効率の高いマルチモーダル混合モデルである。モダリティ間の長いコンテキスト検索タスクのほぼ完璧なリコールを実現する。Gemini 1.0 Ultraの最先端のパフォーマンスを、幅広いベンチマークで比較または上回る。
長文を扱える能力が高くTF-IDF での検索＋re rankを行うパイプライン構成をとった場合を大きく超える性能。そして、旧Twitterでも紹介されていた「With only instructional materials (500 pages of linguistic documentation, a dictionary, and ≈ 400 parallel sentences) all provided in context, Gemini 1.5 Pro is capable of learning to translate from English to Kalamang, a language spoken by fewer than 200 speakers in western New Guinea in the east of Indonesian Papua2, and therefore almost no online presence.」が衝撃的。
gemini_v1_5_report.pdf (storage.googleapis.com)
- Google Japan Blog: 次世代モデル、 Gemini 1.5 を発表 (googleblog.com)

ReadAgent

A Human-Inspired Reading Agent with Gist Memory of Very Long Contexts [38.3]
本実験では,有効文脈長を最大20倍に向上させるエージェントシステムであるReadAgentを提案する。人間が長い文書を対話的に読む方法に触発され、簡単なプロンプトシステムとしてReadAgentを実装した。本稿では,検索手法を用いてベースラインに対するReadAgentの評価を行い,元の長コンテキストを用いて,gistメモリを用いて評価する。
論文参考訳（メタデータ） (Thu, 15 Feb 2024 05:40:21 GMT)
人が長文を読むように一定チャンクごとに要点を保持するGistメモリを使用する方法を提案。ベンチマークで効果を確認とのこと。（BM25って結構優秀だなと別のところも気になった。）
リポジトリはA Human-Inspired Reading Agent with Gist Memory of Very Long Contexts (read-agent.github.io)

Data Engineering for Scaling Language Models to 128K Context

Data Engineering for Scaling Language Models to 128K Context [98.4]
本研究では,言語モデルの文脈長を128Kまで拡張するための継続事前学習法について検討する。長いコンテキストモデリング、特にthe ability to use information at any input locations は、主に大規模事前トレーニングによって既に獲得されている機能であり、この能力は、適切なデータ混合上での軽量な連続的事前トレーニングを通じて、トレーニング中(例えば、4kから128k)において、かなり長いコンテキストに拡張できると仮定する。我々のレシピは強力なオープンソース長文モデルより優れており、GPT-4 128Kのようなフロンティアモデルとのギャップを埋めている。
論文参考訳（メタデータ） (Thu, 15 Feb 2024 18:19:16 GMT)
長文対応のためのレシピ。「the ability to utilize information at arbitrary locations within the 128K input is already mostly acquired by large-scale pretraining, even for models pretrained on substantially shorter 4K context.」というのは興味深い。
リポジトリはFranxYao/Long-Context-Data-Engineering: Implementation of paper Data Engineering for Scaling Language Models to 128K Context (github.com)

EIPE-text: Evaluation-guided Iterative Plan Extraction for long-form narrative text generation

EIPE-text: Evaluation-Guided Iterative Plan Extraction for Long-Form Narrative Text Generation [114.5]
長文物語テキスト生成のための評価誘導反復計画抽出法(EIPE-text)を提案する。 EIPEテキストには、計画抽出、学習、推論の3段階がある。小説やストーリーテリングの分野におけるEIPEテキストの有効性を評価する。
論文参考訳（メタデータ） (Thu, 12 Oct 2023 10:21:37 GMT)
長文生成のためのフレームワーク、plan extraction, learning, inferenceからなり、計画時にQAベースの評価を行うのが特徴的。学習ステップでは in-context learningの適用も想定されており、一般的な学習とは若干異なる動きでも効果があるよう。

LongBench

LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [59.6]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文参考訳（メタデータ） (Mon, 28 Aug 2023 11:53:40 GMT)
LLM評価を前提としたベンチマークであり、バイリンガルかつ長文を対象としたもの。対象のタスクはMulti-document QA, Single-document QA, Summarization, Few-shot learning（「TREC: A classification task that requires categorizing questions, includes 50 categories in total」など）, Synthetic Tasks（「PassageRetrieval-en: Given 30 English Wikipedia paragraphs, determine which paragraph the given summary corresponds to」など）, Code Completionとのこと。カテゴリに若干違和感があるがタスクの詳細はLongBench/task.md at main · THUDM/LongBench · GitHubで様々な観点が入っている。ChatGLM2-6B-32kはかなり優秀のよう。
リポジトリはGitHub – THUDM/LongBench: LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding

L-Eval

L-Eval: Instituting Standardized Evaluation for Long Context Language Models [45.8]
長い文脈言語モデルは、1ターンの長い入力(例えば、論文の要約)を処理し、より広範な歴史と会話することができる。 L-Evalは411の長いドキュメントと2000以上のクエリ応答ペアを手動でアノテートし、著者によってチェックされる。私たちの調査結果は、オープンソースモデルは一般的に商用モデルよりも遅れているものの、それでも素晴らしいパフォーマンスを示していることを示唆しています。
論文参考訳（メタデータ） (Thu, 20 Jul 2023 17:59:41 GMT)
長文を扱うベンチマークでタスクは様々（選択式の質問回答、Question Answering、要約など）、「GPT3.5-16k and Claude-100k are more advanced compared to the open-source models」とのことでこの差が縮まっていくか興味津々
リポジトリはGitHub – OpenLMLab/LEval: Data and code for L-Eval, a comprehensive long context language models evaluation benchmark

LongNet

LongNet: Scaling Transformers to 1,000,000,000 Tokens [114.8]
LongNetはTransformerの変種で、シーケンス長を10億以上のトークンに拡張できる。我々の研究は、例えば、コーパス全体やインターネット全体をシーケンスとして扱うなど、非常に長いシーケンスをモデリングする新たな可能性を開く。
論文参考訳（メタデータ） (Wed, 5 Jul 2023 17:59:38 GMT)
1Bトークンが扱える構造の提案。Dilated Attention によって計算量を削減している。が、下流タスクでの性能が書かれていないのが残念。。。
プロジェクトサイトはAdvancing AGI for humanity | Foundation of AGI (thegenerality.com)

Unlimiformer

Unlimiformer: Long-Range Transformers with Unlimited Length Input [74.5]
Unlimiformerはすべてのレイヤの注意をひとつの$k$-nearest-neighborインデックスにオフロードする。 BookSumデータセットから350kのトークン長の入力を、テスト時に入力トランケーションなしでまとめることができる。
論文参考訳（メタデータ） (Tue, 2 May 2023 17:35:08 GMT)
長文を扱えるTransformer、Unlimiformerという名前が凄い
仕組み上バックボーンには様々なモデルが使えそう。でもこれで○○formerと名乗ってよいかは謎。（有用そうであることは確か）
リポジトリはGitHub – abertsch72/unlimiformer: Public repo for the preprint “Unlimiformer: Long-Range Transformers with Unlimited Length Input”

CoLT5

CoLT5: Faster Long-Range Transformers with Conditional Computation [48.5]
我々は、CoLT5がLongT5よりもはるかに高速なトレーニングと推論でパフォーマンスを実現していることを示す。 CoLT5は、非常に長い入力を効果的に、かつ、トラクタブルに利用でき、64kまでの入力長が強い。
論文参考訳（メタデータ） (Fri, 17 Mar 2023 03:28:17 GMT)
最大64kトークンに対応できる手法の提案、SCROLLSベンチマークでSOTA

2024年4月
月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30