Eagle, Finch, RecurrentGemma

Transformerアーキテクチャに代わりうるモデルに関する報告が出ていた。Eagle, FinchはRWKVプロジェクト(DBRX, Jamba, Grok-1.5, RWKV Finch – arXiv最新論文の紹介 (devneko.jp)など)の研究成果で非常にまとまった論文、RecurentGemmaは1 bit(1.58 bit)なLLMとHAWK・Griffin – arXiv最新論文の紹介 (devneko.jp)のGriffinを取り入れたオープンなモデルである。新たなアーキテクチャに期待したい。

  • Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence [37.0]
    本稿では,RWKV(RWKV-4)アーキテクチャを改良したシーケンスモデルであるEagle(RWKV-5)とFinch(RWKV-6)を紹介する。 アーキテクチャ設計の進歩には、マルチヘッド行列値状態と動的再帰機構が含まれる。 我々は1.12兆のトークンを持つ新しい多言語コーパスと、強化された多言語性のためのgreedyマッチングに基づく高速トークン化器を導入する。
    論文  参考訳(メタデータ)   (Wed, 10 Apr 2024 19:34:38 GMT)
  • RWKVの最新バージョンの論文、ベンチマーク結果を見る限りtransformerベースの最新アーキテクチャと比べても良い勝負になってきている。学習時の計算コストと性能ではMambaよりもコストパフォーマンスがよさそう。
  • プロジェクトサイトはRWKV (RWKV) (huggingface.co)

Rho-1: Not All Tokens Are What You Need

  • Rho-1: Not All Tokens Are What You Need [132.3]
    「コーパス内のトークンはすべて、言語モデルトレーニングに等しく重要ではない」 Rho-1 は選択言語モデリング (SLM) を採用しており、所望の分布に合わせて有用なトークンを選択的に訓練する。 15B OpenWebMathコーパスで継続事前トレーニングを行うと、Rho-1は9つの数学タスクで最大30%のショット精度で絶対的に改善する。
    論文  参考訳(メタデータ)   (Thu, 11 Apr 2024 17:52:01 GMT)
  • 「Selective Language Modeling (SLM), which selectively trains on useful tokens that aligned with the desired distribution.」によって最終性能が上がるという報告。高品質(所望の)ドキュメントで参照モデルを構築し、その結果を利用してトークンを選択するアプローチのよう。
  • リポジトリはmicrosoft/rho: Token-level Data Filtering & Selective Pretraining of LLMs. (github.com)

RS-Mamba

  • RS-Mamba for Large Remote Sensing Image Dense Prediction [58.1]
    VHRリモートセンシングにおける高密度予測タスクのためのリモートセンシングマンバ(RSM)を提案する。 RSMは、線形複雑なリモートセンシング画像のグローバルな特徴をモデル化し、大きなVHR画像を効率的に処理できるように設計されている。 RSMは、VHRリモートセンシングの高密度予測タスクにおいて最先端の性能を達成する。
    論文  参考訳(メタデータ)   (Wed, 03 Apr 2024 12:06:01 GMT)
  • リモートセンシングへのMambaの応用、テキストに目が行きがちだが、「We proposed a Remote Sensing Mamba for dense prediction tasks in ultra-high resolution remote sensing imagery, addressing the limitations of CNN-based models in global context information modeling and the challenges of transformer-based models handling large remote sensing images.」ということでtransformerだと厳しい用途に向いているモデルのよう。
  • リポジトリはwalking-shadow/Official_Remote_Sensing_Mamba: Official code of Remote Sensing Mamba (github.com)

MambaByte

  • MambaByte: Token-free Selective State Space Model [71.9]
    マンババイト(英: MambaByte)は、マンバSSMがバイト配列で自己回帰的に訓練したトークンレス適応である。 MambaByteは、言語モデリングタスクにおいて、最先端のサブワードトランスフォーマーよりも優れています。
    論文  参考訳(メタデータ)   (Wed, 03 Apr 2024 02:36:27 GMT)
  • バイトを対象としたMamba、「Due to their recurrent nature, SSMs enable significantly faster text generation to Transformer models.」とある通り、token freeなバイト対象モデルにMambaは向いているのかもしれない

Training LLMs over Neurally Compressed Text

  • Training LLMs over Neurally Compressed Text [55.1]
    本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。 テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。 提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
    論文  参考訳(メタデータ)   (Thu, 04 Apr 2024 17:48:28 GMT)
  • 圧縮したテキストを用いた学習、「In particular, we find that text naïvely compressed via Arithmetic Coding is not readily learnable by LLMs.To overcome this, we propose Equal-Info Windows, a novel compression technique whereby text is segmented into blocks that each compress to the same bit length.」とのこと。
  • めっちゃ面白いアイデアではあるが実用的かは謎。

The Frontier of Data Erasure

  • The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.3]
    大規模言語モデル(LLM)はAIの進歩の基礎となっている。 LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。 機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
    論文  参考訳(メタデータ)   (Sat, 23 Mar 2024 09:26:15 GMT)
  • Machine unlearningのサーベイ、LLMの大きなリスクの一つであり研究が盛ん

Deepfake Generation and Detection: A Benchmark and Survey

  • Deepfake Generation and Detection: A Benchmark and Survey [138.0]
    この調査は、ディープフェイクの発生と検出の最新の展開を包括的にレビューする。 代表的な4つのディープフェイク分野(顔スワップ、顔再現、話し顔生成、顔属性編集、外国検出)の研究に重点を置いている。
    論文  参考訳(メタデータ)   (Tue, 26 Mar 2024 17:12:34 GMT)
  • ディープフェイクの生成・検知に関するサーベイ。検出について「Most detection models follow a generic approach targeting common operational steps of a specific forgery method, such as the integration phase in face swapping or assessing temporal inconsistencies, but this manner limits the model’s generalization capabilities.」というのは重要な指摘
  • 包括的なサーベイであるとともに、各手法のスコアもまとまっているのが大変ありがたい。

Gecko: Versatile Text Embeddings Distilled from Large Language Models

  • Gecko: Versatile Text Embeddings Distilled from Large Language Models [32.1]
    本稿では,コンパクトで汎用的なテキスト埋め込みモデルであるGeckoを紹介する。 私たちは、大きな言語モデル(LLM)から知識をレトリバーに抽出する、という重要なアイデアを活用しています。 MTEB (Massive Text Embedding Benchmark) では、256の埋め込み次元を持つ Gecko が 768 の埋め込みサイズで既存のエントリを上回ります。
    論文  参考訳(メタデータ)   (Fri, 29 Mar 2024 17:56:40 GMT)
  • コンパクトかつ強力なテキスト埋め込みモデル。text-embedding-ada-3をoutperform。「Gecko is trained on an LLM-generated synthetic dataset FRet that contains LLM-ranked positives and negatives.」という形でLLMを活用

On the Multilingual Ability of Decoder-based Pre-trained Language Models: Finding and Controlling Language-Specific Neurons

  • On the Multilingual Ability of Decoder-based Pre-trained Language Models: Finding and Controlling Language-Specific Neurons [37.3]
    多言語デコーダを用いた言語モデル(PLM)のニューロンレベルの内部挙動の解析 言語固有のニューロンは、言語間でわずかに重なり(5%)、ユニークであることを示す。 推論中に各モデルにおける全ニューロンの1%未満をタンパし、少数の言語特異的ニューロンとのタンパリングがテキスト生成におけるターゲット言語発生の確率を劇的に変化させることを実証した。
    論文  参考訳(メタデータ)   (Wed, 03 Apr 2024 03:37:22 GMT)
  • PLMにおける多言語性の分析、「The experimental results demonstrate that language-specific neurons mainly exist in the first and last few layers, regardless of the language, model size, and model variants.」というFindingsはLanguage-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models – arXiv最新論文の紹介 (devneko.jp)など他の結果と整合的であるように思える。Controlling Language-specific Neuronsでの「In other words, the desired language could be generated by intentionally igniting target neurons.」は面白い。

JDocQA

  • JDocQA: Japanese Document Question Answering Dataset for Generative Language Models [16.0]
    本稿では,大規模文書ベースのQAデータセットであるJDocQAについて紹介する。 PDF形式で5,504件の文書と日本語で11,600件の質問・回答文からなる。 現実的な質問応答アプリケーションのために,複数のカテゴリの質問と,文書から解答不能な質問を取り入れた。
    論文  参考訳(メタデータ)   (Thu, 28 Mar 2024 14:22:54 GMT)
  • 日本語のVQAデータセットの提案、公開はされていない?