Knowledge Fusion of Large Language Models

  • Knowledge Fusion of Large Language Models [73.3]
    本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。 我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。 この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
    論文  参考訳(メタデータ)   (Mon, 22 Jan 2024 17:16:37 GMT)
  • リポジトリはfanqiwan/FuseLLM: ICLR’2024: Knowledge Fusion of Large Language Models (github.com)

History, Development, and Principles of Large Language Models-An Introductory Survey

  • History, Development, and Principles of Large Language Models-An Introductory Survey [48.3]
    自然言語処理(NLP)の基盤となる言語モデル 数十年にわたる広範な研究を経て、言語モデリングは、初期統計言語モデル(SLM)から、大規模言語モデル(LLM)の現代的景観へと進歩してきた。
    論文  参考訳(メタデータ)   (Sat, 10 Feb 2024 01:18:15 GMT)
  • 言語モデルの歴史を振り返るサーベイ
  • 歴史を振り返るにはよい資料でありつつ、それは言語モデルなのか?というつっこみがはいりそうな話題もある(LLMまでの歴史であれば特に問題はないのかな)

Data Engineering for Scaling Language Models to 128K Context

  • Data Engineering for Scaling Language Models to 128K Context [98.4]
    本研究では,言語モデルの文脈長を128Kまで拡張するための継続事前学習法について検討する。 長いコンテキストモデリング、特にthe ability to use information at any input locations は、主に大規模事前トレーニングによって既に獲得されている機能であり、この能力は、適切なデータ混合上での軽量な連続的事前トレーニングを通じて、トレーニング中(例えば、4kから128k)において、かなり長いコンテキストに拡張できると仮定する。 我々のレシピは強力なオープンソース長文モデルより優れており、GPT-4 128Kのようなフロンティアモデルとのギャップを埋めている。
    論文  参考訳(メタデータ)   (Thu, 15 Feb 2024 18:19:16 GMT)
  • 長文対応のためのレシピ。「the ability to utilize information at arbitrary locations within the 128K input is already mostly acquired by large-scale pretraining, even for models pretrained on substantially shorter 4K context.」というのは興味深い。
  • リポジトリはFranxYao/Long-Context-Data-Engineering: Implementation of paper Data Engineering for Scaling Language Models to 128K Context (github.com)

In-Context Principle Learning from Mistakes

  • In-Context Principle Learning from Mistakes [75.7]
    Incontext Learning(ICL)は、いくつかの入力出力例から学習することで、下流タスクにLLMを適用する標準的な方法である。 我々はこのパラダイムを再考し、数少ないインプット・アウトプットの例からより多くを学ぶ。
    論文  参考訳(メタデータ)   (Thu, 8 Feb 2024 04:42:29 GMT)
  • ICLを改善するため、不正解な事例を正しく修正させ原理を説明させるプロセスを混ぜる手法Learning Principles (LEAP)を提案。効果あったとのこと。
  • 改善するか否かはモデルにも依存している?っぽい結果。

Understanding the planning of LLM agents: A survey

  • Understanding the planning of LLM agents: A survey [98.8]
    本調査では, LLMをベースとしたエージェント計画の体系的考察を行い, 計画能力の向上を目的とした最近の成果について報告する。 各方向について総合的な分析を行い、研究分野におけるさらなる課題について論じる。
    論文  参考訳(メタデータ)   (Mon, 5 Feb 2024 04:25:24 GMT)
  • 最近よく見るLLMを利用した自律エージェントのうち計画に関するサーベイ。さらにTask Decomposition, Plan Selection, External Module, Reflection, Memoryに細分化して整理している。実質7ページとよくまとまっているサーベイ。

Tabular Data: Is Attention All You Need?

  • Tabular Data: Is Attention All You Need? [23.8]
    本稿では、ニューラルネットワークと、構造データ上の勾配ブースト決定木を比較した大規模な実証的研究を紹介する。 これまでの研究とは対照的に、ニューラルネットワークは決定木と競合することを示している。
    論文  参考訳(メタデータ)   (Tue, 6 Feb 2024 12:59:02 GMT)
  • テーブルデータのおけるNN系手法、ツリー系手法の比較。一般的にテーブルデータではツリー系手法の強さが目立つが、そうでもないとの報告。Transformer系手法は十分な性能を出せていないのでは?とのこと
  • 平均的にはResNeXtが優秀という意外な(?)結果、スタッキングでどうなるかも興味がある。

Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs

  • Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [87.0]
    大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。 我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。 認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
    論文  参考訳(メタデータ)   (Mon, 29 Jan 2024 06:25:00 GMT)
  • LLMの推論で課題となるKVキャッシュの圧縮方法の提案。タスクによっても異なるが50%のメモリ圧縮は可能そうに見える。

Multi-Lingual Text Embeddings

マルチリンガルなテキストの埋め込みについて2つ報告が出ていた。1つ目は高性能と話題のE5、もう1つはBAAIのモデルでベンチマーク上はE5以上の性能のように見える。いずれもオープンなライセンスのようで使いやすそう。

  • Multilingual E5 Text Embeddings: A Technical Report [63.5]
    異なるサイズの3つの埋め込みモデルを提供し、推論効率と埋め込み品質のバランスを提供する。 そこで我々は,新しい命令調整型埋め込みモデルを導入し,その性能は類似サイズの最先端の英語のみのモデルと同等である。
    論文  参考訳(メタデータ)   (Thu, 8 Feb 2024 13:47:50 GMT)
  • 高性能と話題でOpenAIの埋め込みモデルの別の選択肢としても有名な手法のテクニカルレポート
  • リポジトリはunilm/e5 at master · microsoft/unilm (github.com)、モデルはintfloat/multilingual-e5-base · Hugging Faceなど
  • BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation [28.2]
    本稿では,M3-Embeddingと呼ばれる新しい埋め込みモデルを提案する。 100以上の作業言語をサポートすることができるため、多言語および多言語検索タスクにおける最先端のパフォーマンスが新たに向上する。 M3-Embeddingは、短い文から最大8192トークンの長いドキュメントまで、さまざまな粒度の入力を処理することができる。
    論文  参考訳(メタデータ)   (Mon, 5 Feb 2024 17:26:49 GMT)
  • BAAIによる埋め込みモデル。E5より性能が高いと主張。
  • リポジトリはFlagOpen/FlagEmbedding: Dense Retrieval and Retrieval-augmented LLMs (github.com)モデルはBAAI/bge-m3 · Hugging Face

Time-LLM

  • Time-LLM: Time Series Forecasting by Reprogramming Large Language Models [110.2]
    時系列予測は多くの実世界の力学系において重要な意味を持つ。 時系列予測のための大規模言語モデルを再利用するための再プログラミングフレームワークであるTime-LLMを提案する。 Time-LLMは、最先端の特殊な予測モデルよりも優れた、強力な時系列学習者である。
    論文  参考訳(メタデータ)   (Mon, 29 Jan 2024 06:27:53 GMT)
  • 時系列予測にLLMを活用していこうという報告。「TIME-LLM shows promise in adapting frozen large language models for time series forecasting by reprogramming time series data into text prototypes more natural for LLMs and providing natural language guidance via Prompt-as-Prefix to augment reasoning.」とのことだが、なんでこんなことができるんだろう。。。
  • リポジトリはKimMeen/Time-LLM: [ICLR 2024] Official implementation of “Time-LLM: Time Series Forecasting by Reprogramming Large Language Models” (github.com)

GSSMs vs transformerとBlack Mamba

GSSM(Generalized State Space Models)とtransformerの比較とMoEなアプローチ。昨日のMambaのICL(In Context Learning)性能 – arXiv最新論文の紹介 (devneko.jp)の通り、特性はかなり違うのでMoEっぽく使うのはありなのかもしれない。

  • Repeat After Me: Transformers are Better than State Space Models at Copying [57.4]
    一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
    論文  参考訳(メタデータ)   (Thu, 1 Feb 2024 21:44:11 GMT)
  • シンプルな事例でのGSSMとtransformerの比較。当然なのかもだが「transformer models dramatically outperform state space models at copying and retrieving information from context.」
  • BlackMamba: Mixture of Experts for State-Space Models [10.2]
    状態空間モデル(SSM)は、最近、大規模な言語モデリングベンチマークでトランスフォーマーと競合する性能を示した。 MoEモデルは、計算コストと遅延コストを大幅に削減しながら、顕著なパフォーマンスを示している。 我々は,Mamba SSMとMoEを組み合わせた新しいアーキテクチャであるBlackMambaを紹介した。
    論文  参考訳(メタデータ)   (Thu, 1 Feb 2024 07:15:58 GMT)
  • リポジトリはZyphra/BlackMamba: Code repository for Black Mamba (github.com)、モデルも公開されている Zyphra/BlackMamba-2.8B · Hugging Face