コンテンツへスキップ
- Rho-1: Not All Tokens Are What You Need [132.3]
「コーパス内のトークンはすべて、言語モデルトレーニングに等しく重要ではない」 Rho-1 は選択言語モデリング (SLM) を採用しており、所望の分布に合わせて有用なトークンを選択的に訓練する。 15B OpenWebMathコーパスで継続事前トレーニングを行うと、Rho-1は9つの数学タスクで最大30%のショット精度で絶対的に改善する。
論文 参考訳(メタデータ) (Thu, 11 Apr 2024 17:52:01 GMT)
- 「Selective Language Modeling (SLM), which selectively trains on useful tokens that aligned with the desired distribution.」によって最終性能が上がるという報告。高品質(所望の)ドキュメントで参照モデルを構築し、その結果を利用してトークンを選択するアプローチのよう。
- リポジトリはmicrosoft/rho: Token-level Data Filtering & Selective Pretraining of LLMs. (github.com)
- RS-Mamba for Large Remote Sensing Image Dense Prediction [58.1]
VHRリモートセンシングにおける高密度予測タスクのためのリモートセンシングマンバ(RSM)を提案する。 RSMは、線形複雑なリモートセンシング画像のグローバルな特徴をモデル化し、大きなVHR画像を効率的に処理できるように設計されている。 RSMは、VHRリモートセンシングの高密度予測タスクにおいて最先端の性能を達成する。
論文 参考訳(メタデータ) (Wed, 03 Apr 2024 12:06:01 GMT)
- リモートセンシングへのMambaの応用、テキストに目が行きがちだが、「We proposed a Remote Sensing Mamba for dense prediction tasks in ultra-high resolution remote sensing imagery, addressing the limitations of CNN-based models in global context information modeling and the challenges of transformer-based models handling large remote sensing images.」ということでtransformerだと厳しい用途に向いているモデルのよう。
- リポジトリはwalking-shadow/Official_Remote_Sensing_Mamba: Official code of Remote Sensing Mamba (github.com)
- MambaByte: Token-free Selective State Space Model [71.9]
マンババイト(英: MambaByte)は、マンバSSMがバイト配列で自己回帰的に訓練したトークンレス適応である。 MambaByteは、言語モデリングタスクにおいて、最先端のサブワードトランスフォーマーよりも優れています。
論文 参考訳(メタデータ) (Wed, 03 Apr 2024 02:36:27 GMT)
- バイトを対象としたMamba、「Due to their recurrent nature, SSMs enable significantly faster text generation to Transformer models.」とある通り、token freeなバイト対象モデルにMambaは向いているのかもしれない
- Training LLMs over Neurally Compressed Text [55.1]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。 テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。 提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (Thu, 04 Apr 2024 17:48:28 GMT)
- 圧縮したテキストを用いた学習、「In particular, we find that text naïvely compressed via Arithmetic Coding is not readily learnable by LLMs.To overcome this, we propose Equal-Info Windows, a novel compression technique whereby text is segmented into blocks that each compress to the same bit length.」とのこと。
- めっちゃ面白いアイデアではあるが実用的かは謎。
- The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.3]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。 LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。 機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (Sat, 23 Mar 2024 09:26:15 GMT)
- Machine unlearningのサーベイ、LLMの大きなリスクの一つであり研究が盛ん
- Deepfake Generation and Detection: A Benchmark and Survey [138.0]
この調査は、ディープフェイクの発生と検出の最新の展開を包括的にレビューする。 代表的な4つのディープフェイク分野(顔スワップ、顔再現、話し顔生成、顔属性編集、外国検出)の研究に重点を置いている。
論文 参考訳(メタデータ) (Tue, 26 Mar 2024 17:12:34 GMT)
- ディープフェイクの生成・検知に関するサーベイ。検出について「Most detection models follow a generic approach targeting common operational steps of a specific forgery method, such as the integration phase in face swapping or assessing temporal inconsistencies, but this manner limits the model’s generalization capabilities.」というのは重要な指摘
- 包括的なサーベイであるとともに、各手法のスコアもまとまっているのが大変ありがたい。
- Gecko: Versatile Text Embeddings Distilled from Large Language Models [32.1]
本稿では,コンパクトで汎用的なテキスト埋め込みモデルであるGeckoを紹介する。 私たちは、大きな言語モデル(LLM)から知識をレトリバーに抽出する、という重要なアイデアを活用しています。 MTEB (Massive Text Embedding Benchmark) では、256の埋め込み次元を持つ Gecko が 768 の埋め込みサイズで既存のエントリを上回ります。
論文 参考訳(メタデータ) (Fri, 29 Mar 2024 17:56:40 GMT)
- コンパクトかつ強力なテキスト埋め込みモデル。text-embedding-ada-3をoutperform。「Gecko is trained on an LLM-generated synthetic dataset FRet that contains LLM-ranked positives and negatives.」という形でLLMを活用
- On the Multilingual Ability of Decoder-based Pre-trained Language Models: Finding and Controlling Language-Specific Neurons [37.3]
多言語デコーダを用いた言語モデル(PLM)のニューロンレベルの内部挙動の解析 言語固有のニューロンは、言語間でわずかに重なり(5%)、ユニークであることを示す。 推論中に各モデルにおける全ニューロンの1%未満をタンパし、少数の言語特異的ニューロンとのタンパリングがテキスト生成におけるターゲット言語発生の確率を劇的に変化させることを実証した。
論文 参考訳(メタデータ) (Wed, 03 Apr 2024 03:37:22 GMT)
- PLMにおける多言語性の分析、「The experimental results demonstrate that language-specific neurons mainly exist in the first and last few layers, regardless of the language, model size, and model variants.」というFindingsはLanguage-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models – arXiv最新論文の紹介 (devneko.jp)など他の結果と整合的であるように思える。Controlling Language-specific Neuronsでの「In other words, the desired language could be generated by intentionally igniting target neurons.」は面白い。
- JDocQA: Japanese Document Question Answering Dataset for Generative Language Models [16.0]
本稿では,大規模文書ベースのQAデータセットであるJDocQAについて紹介する。 PDF形式で5,504件の文書と日本語で11,600件の質問・回答文からなる。 現実的な質問応答アプリケーションのために,複数のカテゴリの質問と,文書から解答不能な質問を取り入れた。
論文 参考訳(メタデータ) (Thu, 28 Mar 2024 14:22:54 GMT)
- 日本語のVQAデータセットの提案、公開はされていない?
- Mapping the Increasing Use of LLMs in Scientific Papers [99.7]
2020年1月から2024年2月にかけて、arXiv、bioRxiv、Natureのポートフォリオジャーナルで950,965の論文をまとめて、体系的で大規模な分析を行った。 LLMの使用率が着実に増加し,コンピュータサイエンス論文(最大17.5%)で最大かつ最速の成長が観察された。一方、数学論文とNatureのポートフォリオでは、LLMの修正は最も少ない(最大6.3%)。
論文 参考訳(メタデータ) (Mon, 01 Apr 2024 17:45:15 GMT)
- LLMの学術分野での利用集計で数値で示されると納得感がある。検出能力がどうなのかというのはやや疑問ではありつつ「authors who post preprints more frequently show a higher fraction of LLM-modified content in their writing.」とか興味深い結果。