RS-Mamba

  • RS-Mamba for Large Remote Sensing Image Dense Prediction [58.1]
    VHRリモートセンシングにおける高密度予測タスクのためのリモートセンシングマンバ(RSM)を提案する。 RSMは、線形複雑なリモートセンシング画像のグローバルな特徴をモデル化し、大きなVHR画像を効率的に処理できるように設計されている。 RSMは、VHRリモートセンシングの高密度予測タスクにおいて最先端の性能を達成する。
    論文  参考訳(メタデータ)   (Wed, 03 Apr 2024 12:06:01 GMT)
  • リモートセンシングへのMambaの応用、テキストに目が行きがちだが、「We proposed a Remote Sensing Mamba for dense prediction tasks in ultra-high resolution remote sensing imagery, addressing the limitations of CNN-based models in global context information modeling and the challenges of transformer-based models handling large remote sensing images.」ということでtransformerだと厳しい用途に向いているモデルのよう。
  • リポジトリはwalking-shadow/Official_Remote_Sensing_Mamba: Official code of Remote Sensing Mamba (github.com)

MambaByte

  • MambaByte: Token-free Selective State Space Model [71.9]
    マンババイト(英: MambaByte)は、マンバSSMがバイト配列で自己回帰的に訓練したトークンレス適応である。 MambaByteは、言語モデリングタスクにおいて、最先端のサブワードトランスフォーマーよりも優れています。
    論文  参考訳(メタデータ)   (Wed, 03 Apr 2024 02:36:27 GMT)
  • バイトを対象としたMamba、「Due to their recurrent nature, SSMs enable significantly faster text generation to Transformer models.」とある通り、token freeなバイト対象モデルにMambaは向いているのかもしれない

Training LLMs over Neurally Compressed Text

  • Training LLMs over Neurally Compressed Text [55.1]
    本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。 テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。 提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
    論文  参考訳(メタデータ)   (Thu, 04 Apr 2024 17:48:28 GMT)
  • 圧縮したテキストを用いた学習、「In particular, we find that text naïvely compressed via Arithmetic Coding is not readily learnable by LLMs.To overcome this, we propose Equal-Info Windows, a novel compression technique whereby text is segmented into blocks that each compress to the same bit length.」とのこと。
  • めっちゃ面白いアイデアではあるが実用的かは謎。

The Frontier of Data Erasure

  • The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.3]
    大規模言語モデル(LLM)はAIの進歩の基礎となっている。 LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。 機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
    論文  参考訳(メタデータ)   (Sat, 23 Mar 2024 09:26:15 GMT)
  • Machine unlearningのサーベイ、LLMの大きなリスクの一つであり研究が盛ん

Deepfake Generation and Detection: A Benchmark and Survey

  • Deepfake Generation and Detection: A Benchmark and Survey [138.0]
    この調査は、ディープフェイクの発生と検出の最新の展開を包括的にレビューする。 代表的な4つのディープフェイク分野(顔スワップ、顔再現、話し顔生成、顔属性編集、外国検出)の研究に重点を置いている。
    論文  参考訳(メタデータ)   (Tue, 26 Mar 2024 17:12:34 GMT)
  • ディープフェイクの生成・検知に関するサーベイ。検出について「Most detection models follow a generic approach targeting common operational steps of a specific forgery method, such as the integration phase in face swapping or assessing temporal inconsistencies, but this manner limits the model’s generalization capabilities.」というのは重要な指摘
  • 包括的なサーベイであるとともに、各手法のスコアもまとまっているのが大変ありがたい。

Gecko: Versatile Text Embeddings Distilled from Large Language Models

  • Gecko: Versatile Text Embeddings Distilled from Large Language Models [32.1]
    本稿では,コンパクトで汎用的なテキスト埋め込みモデルであるGeckoを紹介する。 私たちは、大きな言語モデル(LLM)から知識をレトリバーに抽出する、という重要なアイデアを活用しています。 MTEB (Massive Text Embedding Benchmark) では、256の埋め込み次元を持つ Gecko が 768 の埋め込みサイズで既存のエントリを上回ります。
    論文  参考訳(メタデータ)   (Fri, 29 Mar 2024 17:56:40 GMT)
  • コンパクトかつ強力なテキスト埋め込みモデル。text-embedding-ada-3をoutperform。「Gecko is trained on an LLM-generated synthetic dataset FRet that contains LLM-ranked positives and negatives.」という形でLLMを活用

On the Multilingual Ability of Decoder-based Pre-trained Language Models: Finding and Controlling Language-Specific Neurons

  • On the Multilingual Ability of Decoder-based Pre-trained Language Models: Finding and Controlling Language-Specific Neurons [37.3]
    多言語デコーダを用いた言語モデル(PLM)のニューロンレベルの内部挙動の解析 言語固有のニューロンは、言語間でわずかに重なり(5%)、ユニークであることを示す。 推論中に各モデルにおける全ニューロンの1%未満をタンパし、少数の言語特異的ニューロンとのタンパリングがテキスト生成におけるターゲット言語発生の確率を劇的に変化させることを実証した。
    論文  参考訳(メタデータ)   (Wed, 03 Apr 2024 03:37:22 GMT)
  • PLMにおける多言語性の分析、「The experimental results demonstrate that language-specific neurons mainly exist in the first and last few layers, regardless of the language, model size, and model variants.」というFindingsはLanguage-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models – arXiv最新論文の紹介 (devneko.jp)など他の結果と整合的であるように思える。Controlling Language-specific Neuronsでの「In other words, the desired language could be generated by intentionally igniting target neurons.」は面白い。

JDocQA

  • JDocQA: Japanese Document Question Answering Dataset for Generative Language Models [16.0]
    本稿では,大規模文書ベースのQAデータセットであるJDocQAについて紹介する。 PDF形式で5,504件の文書と日本語で11,600件の質問・回答文からなる。 現実的な質問応答アプリケーションのために,複数のカテゴリの質問と,文書から解答不能な質問を取り入れた。
    論文  参考訳(メタデータ)   (Thu, 28 Mar 2024 14:22:54 GMT)
  • 日本語のVQAデータセットの提案、公開はされていない?

Mapping the Increasing Use of LLMs in Scientific Papers 

  • Mapping the Increasing Use of LLMs in Scientific Papers [99.7]
    2020年1月から2024年2月にかけて、arXiv、bioRxiv、Natureのポートフォリオジャーナルで950,965の論文をまとめて、体系的で大規模な分析を行った。 LLMの使用率が着実に増加し,コンピュータサイエンス論文(最大17.5%)で最大かつ最速の成長が観察された。一方、数学論文とNatureのポートフォリオでは、LLMの修正は最も少ない(最大6.3%)。
    論文  参考訳(メタデータ)   (Mon, 01 Apr 2024 17:45:15 GMT)
  • LLMの学術分野での利用集計で数値で示されると納得感がある。検出能力がどうなのかというのはやや疑問ではありつつ「authors who post preprints more frequently show a higher fraction of LLM-modified content in their writing.」とか興味深い結果。

Cohere Command R+, AURORA-M, HyperCLOVA X, EURUS

先週もLLM関連の話題が多かった。Cohere Command R+はGPT-4相当をうたう104BのLLMであり、huggingfaceでCC-BY-NCで公開されている。完全に商用クオリティのモデルが非商用利用のみとはいえ公開されたのは衝撃的だった。研究コミュニティに対する大きな貢献だと思う。

Aurora-MはStarCoderPlusから継続学習によって作られたオープンなLLM、HyperCLOVA XはNAVERによる韓国語に強いLLMである。EURUSなどオープンなLLMを強化しようというトライも多い。

Introducing Command R+: A ScalableLLM Built for Business
Command R+は、エンタープライズグレードのワークロードに取り組むために設計された最先端のRAG最適化モデルである。最初はmicrosoft azureで利用可能だ。
Introducing Command R+: A Scalable LLM Built for Business (cohere.com)
Mistral Large以上、GPT-4-Turbo相当を主張するLLM、商用利用不可の条件ではあるが研究用に使用可能なモデルが公開されているのがすごい
リポジトリはCohereForAI/c4ai-command-r-plus · Hugging Face

  • Aurora-M: The First Open Source Multilingual Language Model Red-teamed according to the U.S. Executive Order [123.7]
    Aurora-Mは、英語、フィンランド語、ヒンディー語、日本語、ベトナム語、コードで訓練された15Bパラメータの多言語オープンソースモデルである。 これは、人間がレビューした安全命令を微調整した初めてのオープンソース多言語モデルである。 様々なタスクや言語で厳格に評価されており、破滅的な忘れ物に対する頑丈さを示している。
    論文  参考訳(メタデータ)   (Sat, 30 Mar 2024 15:38:54 GMT)
  • 15Bのオープンな多言語LLM、性能はLlama2 13Bと競合という感じではあるが安全性に非常に気を使ったモデルになっている。
  • プロジェクトサイトはAurora-M models – a aurora-m Collection (huggingface.co)
  • HyperCLOVA X Technical Report [119.1]
    韓国語と文化に合わせた大型言語モデル(LLM)のファミリーであるHyperCLOVA Xを紹介する。 HyperCLOVA Xは韓国語、英語、コードデータのバランスの取れた混合でトレーニングされ、その後、高品質な人間アノテーション付きデータセットによる命令チューニングが行われた。 このモデルは、韓国語と英語の両方で、包括的な推論、知識、常識、事実性、コーディング、数学、チャット、指示追従、無害など、様々なベンチマークで評価されている。
    論文  参考訳(メタデータ)   (Tue, 02 Apr 2024 13:48:49 GMT)
  • NAVERによるLLM,韓国語能力が高いが、英語でもLlama2 70Bと競っており能力が高い。パラメータ数は非公表?
  • Advancing LLM Reasoning Generalists with Preference Trees [119.6]
    推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。 Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
    論文  参考訳(メタデータ)   (Tue, 02 Apr 2024 16:25:30 GMT)
  • Mistral-7B, CodeLlama-70BからSFTされたモデル、UltraInteractというデータセットがコア。「EURUS-70B beats GPT-3.5 Turbo in reasoning through a comprehensive benchmarking across 12 tests covering five tasks」はすごい
  • OpenBMB/Eurus (github.com)