LLM – ページ 27 – arXiv最新論文の紹介

LLM2Vec

LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders [34.4]
大規模デコーダのみの言語モデル(LLM)は、今日のNLPタスクとベンチマークのほとんどで最先端のモデルである。 LLM2Vecは、任意のデコーダのみのLLMを強力なテキストエンコーダに変換する、単純な教師なしアプローチである。
論文参考訳（メタデータ） (Tue, 09 Apr 2024 02:51:05 GMT)
LLMを用いたエンベディング。任意のCausalLMから埋め込み用モデル構築する手法の提案。優れた結果。単純といえば単純なアプローチではあるが、なぜこれが効果的なのかわかるようなわからないような。
論文中の「Based on these findings (we replicate these results for other inputs and other Mistral models in Appendix F) and the strong unsupervised results for Mistral-7B with bidirectional attention, we speculate that Mistral models are pre-trained with some form bidirectional attention, e g , prefix language modeling (Raffel et al , 2020) – at least for some parts of its training.」が非常に興味深い。
リポジトリはMcGill-NLP/llm2vec: Code for ‘LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders’ (github.com)

Is Cosine-Similarity of Embeddings Really About Similarity? [46.8]
コサイン相似性(Cosine-similarity)は、2つのベクトル間の角度のコサイン、すなわちそれらの正規化の間のドット積である。正規化線形モデルから導かれる埋め込みについて検討し、そこでは閉形式解が解析的洞察を促進する。我々はコサイン相似性が任意の、したがって無意味な類似性をもたらすか分析的に導出する」。
論文参考訳（メタデータ） (Fri, 8 Mar 2024 16:48:20 GMT)
コサイン類似度が最善でない場合もあるようだが、この手法はどうなんだろう。

ReaLMistake

Evaluating LLMs at Detecting Errors in LLM Responses [30.6]
この研究は、LLMによる客観的、現実的で多様なエラーからなる最初のエラー検出ベンチマークであるReaLMistakeを紹介した。我々はReaLMistakeを用いて12の大規模言語モデルに基づいて誤り検出を行う。
論文参考訳（メタデータ） (Thu, 04 Apr 2024 17:19:47 GMT)
LLMのエラー検出ベンチマーク。「Our experiments on this benchmark with error detectors based on 12 LLMs show that detecting mistakes in LLMs (GPT-4 and Llama 2 70B) is challenging even for recent LLMs.」という結論はそうだよなーという感じではありつつ、LLMにはときにくい課題かつエラー検出難しいものがありそうで面白い
リポジトリはpsunlpgroup/ReaLMistake: This repository includes a benchmark and code for the paper “Evaluating LLMs at Detecting Errors in LLM Responses”. (github.com)

Transformerアーキテクチャに代わりうるモデルに関する報告が出ていた。Eagle, FinchはRWKVプロジェクト（DBRX, Jamba, Grok-1.5, RWKV Finch – arXiv最新論文の紹介 (devneko.jp)など）の研究成果で非常にまとまった論文、RecurentGemmaは1 bit(1.58 bit)なLLMとHAWK・Griffin – arXiv最新論文の紹介 (devneko.jp)のGriffinを取り入れたオープンなモデルである。新たなアーキテクチャに期待したい。

Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence [37.0]
本稿では,RWKV(RWKV-4)アーキテクチャを改良したシーケンスモデルであるEagle(RWKV-5)とFinch(RWKV-6)を紹介する。アーキテクチャ設計の進歩には、マルチヘッド行列値状態と動的再帰機構が含まれる。我々は1.12兆のトークンを持つ新しい多言語コーパスと、強化された多言語性のためのgreedyマッチングに基づく高速トークン化器を導入する。
論文参考訳（メタデータ） (Wed, 10 Apr 2024 19:34:38 GMT)
RWKVの最新バージョンの論文、ベンチマーク結果を見る限りtransformerベースの最新アーキテクチャと比べても良い勝負になってきている。学習時の計算コストと性能ではMambaよりもコストパフォーマンスがよさそう。
プロジェクトサイトはRWKV (RWKV) (huggingface.co)

RecurrentGemma: Moving Past Transformers for Efficient Open Language Models [103.6]
本稿では,Googleの新しいGriffinアーキテクチャを用いたオープン言語モデルであるRecurrentGemmaを紹介する。 Griffinは、言語における優れたパフォーマンスを達成するために、線形反復と局所的な注意を組み合わせる。
論文参考訳（メタデータ） (Thu, 11 Apr 2024 15:27:22 GMT)
こちらはGriffinアーキテクチャによるオープンモデル。2Bで比較してGemmaとほぼ同性能、スループットは大幅に向上している。
リポジトリはgoogle-deepmind/recurrentgemma: Open weights language model from Google DeepMind, based on Griffin. (github.com)、モデルはKaggleで公開されている。RecurrentGemma | Kaggle

Rho-1: Not All Tokens Are What You Need

Rho-1: Not All Tokens Are What You Need [132.3]
「コーパス内のトークンはすべて、言語モデルトレーニングに等しく重要ではない」 Rho-1 は選択言語モデリング (SLM) を採用しており、所望の分布に合わせて有用なトークンを選択的に訓練する。 15B OpenWebMathコーパスで継続事前トレーニングを行うと、Rho-1は9つの数学タスクで最大30%のショット精度で絶対的に改善する。
論文参考訳（メタデータ） (Thu, 11 Apr 2024 17:52:01 GMT)
「Selective Language Modeling (SLM), which selectively trains on useful tokens that aligned with the desired distribution.」によって最終性能が上がるという報告。高品質（所望の）ドキュメントで参照モデルを構築し、その結果を利用してトークンを選択するアプローチのよう。
リポジトリはmicrosoft/rho: Token-level Data Filtering & Selective Pretraining of LLMs. (github.com)

Training LLMs over Neurally Compressed Text

Training LLMs over Neurally Compressed Text [55.1]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文参考訳（メタデータ） (Thu, 04 Apr 2024 17:48:28 GMT)
圧縮したテキストを用いた学習、「In particular, we find that text naïvely compressed via Arithmetic Coding is not readily learnable by LLMs.To overcome this, we propose Equal-Info Windows, a novel compression technique whereby text is segmented into blocks that each compress to the same bit length.」とのこと。
めっちゃ面白いアイデアではあるが実用的かは謎。

Mapping the Increasing Use of LLMs in Scientific Papers

Mapping the Increasing Use of LLMs in Scientific Papers [99.7]
2020年1月から2024年2月にかけて、arXiv、bioRxiv、Natureのポートフォリオジャーナルで950,965の論文をまとめて、体系的で大規模な分析を行った。 LLMの使用率が着実に増加し,コンピュータサイエンス論文(最大17.5%)で最大かつ最速の成長が観察された。一方、数学論文とNatureのポートフォリオでは、LLMの修正は最も少ない(最大6.3%)。
論文参考訳（メタデータ） (Mon, 01 Apr 2024 17:45:15 GMT)
LLMの学術分野での利用集計で数値で示されると納得感がある。検出能力がどうなのかというのはやや疑問ではありつつ「authors who post preprints more frequently show a higher fraction of LLM-modified content in their writing.」とか興味深い結果。

Cohere Command R+, AURORA-M, HyperCLOVA X, EURUS

先週もLLM関連の話題が多かった。Cohere Command R+はGPT-4相当をうたう104BのLLMであり、huggingfaceでCC-BY-NCで公開されている。完全に商用クオリティのモデルが非商用利用のみとはいえ公開されたのは衝撃的だった。研究コミュニティに対する大きな貢献だと思う。

Aurora-MはStarCoderPlusから継続学習によって作られたオープンなLLM、HyperCLOVA XはNAVERによる韓国語に強いLLMである。EURUSなどオープンなLLMを強化しようというトライも多い。

Introducing Command R+: A ScalableLLM Built for Business
Command R+は、エンタープライズグレードのワークロードに取り組むために設計された最先端のRAG最適化モデルである。最初はmicrosoft azureで利用可能だ。
Introducing Command R+: A Scalable LLM Built for Business (cohere.com)
Mistral Large以上、GPT-4-Turbo相当を主張するLLM、商用利用不可の条件ではあるが研究用に使用可能なモデルが公開されているのがすごい
リポジトリはCohereForAI/c4ai-command-r-plus · Hugging Face

Aurora-M: The First Open Source Multilingual Language Model Red-teamed according to the U.S. Executive Order [123.7]
Aurora-Mは、英語、フィンランド語、ヒンディー語、日本語、ベトナム語、コードで訓練された15Bパラメータの多言語オープンソースモデルである。これは、人間がレビューした安全命令を微調整した初めてのオープンソース多言語モデルである。様々なタスクや言語で厳格に評価されており、破滅的な忘れ物に対する頑丈さを示している。
論文参考訳（メタデータ） (Sat, 30 Mar 2024 15:38:54 GMT)
15Bのオープンな多言語LLM、性能はLlama2 13Bと競合という感じではあるが安全性に非常に気を使ったモデルになっている。
プロジェクトサイトはAurora-M models – a aurora-m Collection (huggingface.co)

HyperCLOVA X Technical Report [119.1]
韓国語と文化に合わせた大型言語モデル(LLM)のファミリーであるHyperCLOVA Xを紹介する。 HyperCLOVA Xは韓国語、英語、コードデータのバランスの取れた混合でトレーニングされ、その後、高品質な人間アノテーション付きデータセットによる命令チューニングが行われた。このモデルは、韓国語と英語の両方で、包括的な推論、知識、常識、事実性、コーディング、数学、チャット、指示追従、無害など、様々なベンチマークで評価されている。
論文参考訳（メタデータ） (Tue, 02 Apr 2024 13:48:49 GMT)
NAVERによるLLM,韓国語能力が高いが、英語でもLlama2 70Bと競っており能力が高い。パラメータ数は非公表？

Advancing LLM Reasoning Generalists with Preference Trees [119.6]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。 Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文参考訳（メタデータ） (Tue, 02 Apr 2024 16:25:30 GMT)
Mistral-7B, CodeLlama-70BからSFTされたモデル、UltraInteractというデータセットがコア。「EURUS-70B beats GPT-3.5 Turbo in reasoning through a comprehensive benchmarking across 12 tests covering five tasks」はすごい
OpenBMB/Eurus (github.com)

TableLLM

TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios [52.7]
我々は13億のパラメータを持つ堅牢な大規模言語モデル(LLM)であるTableLLMを紹介する。本稿では,推論プロセス拡張戦略を含む遠隔トレーニングのための遠隔監視手法を提案する。我々は、ユーザインタラクションのためのモデルチェックポイント、ソースコード、ベンチマーク、Webアプリケーションを公開した。
論文参考訳（メタデータ） (Thu, 28 Mar 2024 11:21:12 GMT)
LLMで意外と取り扱いづらい表形式への対応。SFT用データをデータ生成・拡張で作ったのちCodeLlamaベースで構築。13Bで「TableLLM performs comparably to GPT-3.5 and even surpasses GPT-4 in the spreadsheet-embedded scenario.」とのこと。
リポジトリはTableLLM

MATEval: A “Multi-Agent Text Evaluation framework”

MATEval: A Multi-Agent Discussion Framework for Advancing Open-Ended Text Evaluation [22.2]
生成型大規模言語モデル(LLM)は注目に値するが、これらのモデルによって生成されたテキストの品質は、しばしば永続的な問題を示す。 MATEval: “Multi-Agent Text Evaluation framework”を提案する。本フレームワークは,評価プロセスの深度と広さを高めるために,自己回帰と整合性戦略とフィードバック機構を取り入れている。
論文参考訳（メタデータ） (Thu, 28 Mar 2024 10:41:47 GMT)
マルチエージェントなself-reflectionとCoTで評価するフレームワークの提案。「We mainly apply our framework to the evaluation of story texts generated by LLMs in Alipay business scenarios.」とのことで現実的なデータ＆様々な手法と比較されているのは興味深い。
リポジトリはAnonymized Repository – Anonymous GitHub (4open.science)

Evaluation Ethics of LLMs in Legal Domain

Evaluation Ethics of LLMs in Legal Domain [35.7]
本稿では,大規模言語モデル (LLM) の基本的言語能力, 専門的法的知識, 法的堅牢性を評価するために, 真正の法的事例を利用する新規性評価手法を提案する。包括的評価から得られた知見は,法律領域における大規模言語モデルの適合性と性能に関する学術的議論に大きく貢献する。
論文参考訳（メタデータ） (Sun, 17 Mar 2024 09:05:13 GMT)
LLMに対する法的ドメインでの評価、社会実装を考えるうえでとても重要。「Legal Instruction Following（正しく命令に従うか）」「Legal Knowledge（ Gender Bias, Age Bias, Career Biasを持っていないか）」「 Legal Robustness（回答の一貫性と誘導されないか）」を検証。Legal Knowledgeの「 Qwen-Chat (14B/7B) demonstrates a strong ability in recognizing legal elements, while GPT4 could become more viable if it addresses sentencing biases stemming from gender.」はやや意外な結果。
残念ながら「Highlight the widespread shortcomings of LLMs in fairness and robustness.」とのこと。。。

タグ: LLM