- MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning [105.1]
低ランク適応は、大規模言語モデルのためのパラメータ効率の良い微調整法として人気がある。 トレーニング可能なパラメータ数を同じ数に保ちながら、高階更新を実現するために2乗行列を用いるMoRAと呼ばれる新しい手法を提案する。 本手法はメモリ集約型タスクではLoRAより優れ,他のタスクでは同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (Mon, 20 May 2024 15:48:32 GMT) - 正方行列を用いたLoRAの改善
- リポジトリはGitHub – kongds/MoRA
タグ: LLM
JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models
- JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models [110.5]
既存の研究は、事前学習のための大規模な数学関連のテキストを収集したり、巨大な数学問題を合成するために強力なLLMに依存している。 そこで本研究では,数学問題合成のための小さなLLMを効率的に学習し,高品質な事前学習データを効率的に生成する手法を提案する。 我々は、GPT-4 API 9.3k回の呼び出しと4.6Bデータの事前トレーニングのみを必要とする、JuZhang3.0モデルの事前トレーニングに600万の数学問題を合成する。
論文 参考訳(メタデータ) (Thu, 23 May 2024 09:43:19 GMT) - 数学問題について高品質な合成データを構築し小規模LLMをfinetuning、優れた性能を達成とのこと。商用ではライセンス的に難しい場合も多いが有望なアプローチであると思う。実験でJiuZhang3.0-8B (LLaMA-3-8Bベース) と7B (Mistral-7Bベース)を構築していて早速Llama 3を取り込んでいるのがすごい&両者の性能がタスクによって大きく異なるのが興味深い。
- リポジトリはGitHub – RUCAIBox/JiuZhang3.0: The code and data for the paper JiuZhang3.0
Phi-3 small/medium, Mistral 7B v0.3, Aya 23 8B/35B
先週はMS Buildで発表されたPhi small/medium/visionのほか、オープンなLLMの発表が多かった。
- マイクロソフトBuild 2024ニュースブック (microsoft.com)
- mistralai/Mistral-7B-Instruct-v0.3 · Hugging Face
- Aya | Cohere For AI
MSのPhiはMITライセンス、Mistral v0.3はApache-2ライセンスとオープンなモデル、CohereのAya 23はCC-BY-NCと商用利用は不可であるがこのような強力なモデルが公開されるのはありがたい。
別Blogで検証を行った(Mistral 7B v0.3, Phi-3 small/medium, Aya 23 8Bの機械翻訳性能 | ぷるーふおぶこんせぷと (staka.jp))感じ日本語でもタスクによっては優れた性能を発揮できそう。
xRAG、FlashRAG、HippoRAG
RAG関連の研究はとても盛ん
- xRAG: Extreme Context Compression for Retrieval-augmented Generation with One Token [108.7]
xRAGは、検索拡張生成に適した、革新的なコンテキスト圧縮手法である。 xRAGは、言語モデル表現空間に文書の埋め込みをシームレスに統合する。 実験の結果、xRAGは6つの知識集約タスクで平均10%以上の改善を達成していることがわかった。
論文 参考訳(メタデータ) (Wed, 22 May 2024 16:15:17 GMT) - プロンプトに検索結果を投入する一般的なRAGではなくProjectorとドキュメントを表すトークンを介す方式の新たなRAG手法の提案。モダリティの拡張に近いイメージのよう。
- リポジトリはGitHub – Hannibal046/xRAG: Source code for xRAG: Extreme Context Compression for Retrieval-augmented Generation with One Token
- FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research [32.8]
FlashRAGは、研究者が既存のRAGメソッドを再現し、統一されたフレームワーク内で独自のRAGアルゴリズムを開発するのを支援するために設計された、効率的でモジュール化されたオープンソースツールキットである。 私たちのツールキットには、カスタマイズ可能なモジュラーフレームワーク、実装済みRAGワークの豊富なコレクション、包括的なデータセット、効率的な補助的な前処理スクリプト、広範囲で標準的な評価指標など、さまざまな機能があります。
論文 参考訳(メタデータ) (Wed, 22 May 2024 12:12:40 GMT) - RAGに関連する様々な手法が使えるツールキット。ベンチマークデータも整理されているのが素晴らしい
- リポジトリはGitHub – RUC-NLPIR/FlashRAG: ⚡FlashRAG: A Python Toolkit for Efficient RAG Research
- HippoRAG: Neurobiologically Inspired Long-Term Memory for Large Language Models [24.5]
我々は,ヒトの長期記憶の海馬索引付け理論に触発された新しい検索フレームワークであるHippoRAGを紹介する。 その結果,本手法は最先端の手法を最大20%向上させることができた。 提案手法は,既存の手法に及ばない新たなシナリオに対処することができる。
論文 参考訳(メタデータ) (Thu, 23 May 2024 17:47:55 GMT) - 海馬を模したRAGとのこと。動作は「Our novel design first models the neocortex’s ability to process perceptual input by using an LLM to transform a corpus into a schemaless knowledge graph (KG) as our artificial hippocampal index.Given a new query, HippoRAG identifies the key concepts in the query and runs the Personalized PageRank (PPR) algorithm [23] on the KG, using the query concepts as the seeds, to integrate information across passages for retrieval. PPR enables HippoRAG to explore KG paths and identify relevant subgraphs, essentially performing multi-hop reasoning in a single retrieval step.」ということでKnowledge Graphをうまく使うアプローチ。
- リポジトリはGitHub – OSU-NLP-Group/HippoRAG: HippoRAG is a novel RAG framework inspired by human long-term memory that enables LLMs to continuously integrate knowledge across external documents.
GenTranslate: Large Language Models are Generative Multilingual Speech and Machine Translators
- GenTranslate: Large Language Models are Generative Multilingual Speech and Machine Translators [45.5]
GenTranslate”は、N-bestリストの多種多様な翻訳バージョンからより良い結果を生成するために、大きな言語モデルの上に構築されている。 我々の新しいパラダイムは、より高品質な翻訳結果を生成するために、N-best候補にリッチな情報を統合することができる。
論文 参考訳(メタデータ) (Thu, 16 May 2024 13:17:05 GMT) - LLMを用いて複数の訳文候補を組み合わせることで高品質な翻訳をしようという論文。fine tuning用のデータセットHypoTranslate(PeacefulData/HypoTranslate · Datasets at Hugging Face)も公開している。
- リポジトリはGitHub – YUCHEN005/GenTranslate: Code for paper “GenTranslate: Large Language Models are Generative Multilingual Speech and Machine Translators”
What Can Natural Language Processing Do for Peer Review?
- What Can Natural Language Processing Do for Peer Review? [173.9]
現代の科学ではピアレビューが広く使われているが、それは難しく、時間がかかり、エラーを起こしやすい。 ピアレビューに関わるアーティファクトは大部分がテキストベースであるため、自然言語処理はレビューを改善する大きな可能性を秘めている。 筆者らは、原稿提出からカメラ対応リビジョンまでの各工程について詳述し、NLP支援の課題と機会について論じる。
論文 参考訳(メタデータ) (Fri, 10 May 2024 16:06:43 GMT) - LLMを使ってピアレビューが可能か、支援可能かを検証したサーベイ。スコアリングのようなレビューだけではなく関連するタスクに関しても評価されており広範な内容。
- リポジトリはGitHub – OAfzal/nlp-for-peer-review
EWOK: Elements of World Knowledge
- Elements of World Knowledge (EWOK): A cognition-inspired framework for evaluating basic world knowledge in language models [42.5]
本稿では,言語モデルにおける世界モデリングを評価するためのフレームワークであるElements of World Knowledge(EWOK)について述べる。 EWOKは、人間の世界モデリングに不可欠な複数の知識領域から特定の概念をターゲットにしている。 次に,世界11の知識領域をカバーする4,374項目のデータセットであるEWOK-CORE-1.0を紹介する。
論文 参考訳(メタデータ) (Wed, 15 May 2024 17:19:42 GMT) - LLMの世界の知識(物理的なもの、空間的なもの、社会的なものなど様々なドメインが含まれる)を評価するためのベンチマーク。「Community Standard for Use of Evaluation Data」も面白い。
- リポジトリはEWoK: Elements of World Knowledge (ewok-core.github.io)
GPT-4o, Gemini Flash, Falcon-2
先週は大きな発表の多い週で、対応するモダリティが多く・性能が高く・推論速度が速く・安いGPT-4oの発表、扱えるコンテキスト長が長いGemini、非常に低価格で性能の良いGemini Flashの発表が大きなニュースだった。
Hello GPT-4o | OpenAI
Google Gemini updates: Flash 1.5, Gemma 2 and Project Astra (blog.google)
Gemini Flash – Google DeepMind
全体的に正統な進化をしているとの印象ではあるが、OpenAIが圧倒的性能を持った時代が終わりつつあるのかなという印象がある(GPT-5の発表によって覆される可能性はあるが・・・)
気になっているのはコンテキスト キャッシュ ガイド | Google AI for Developers | Google for Developersの実装で、中身がSSM&状態を保存するようなものだと革新的(そうじゃないと思うけど)。そうでなくともRAGを終わらせる可能性のある機能として興味深い。
公開モデルとしてはFalcon 2が発表されたのも大きなニュースだった。多言語で選択肢が増えるのはありがたい。
Falcon 2: UAE’s Technology Innovation Institute Releases New AI Model Series, Outperforming Meta’s New Llama 3 | Technology Innovation Institute (tii.ae)
tiiuae/falcon-11B · Hugging Face
Chain of Attack
- Chain of Attack: a Semantic-Driven Contextual Multi-Turn attacker for LLM [27.0]
大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて顕著な性能を発揮している。 CoAは、アタックポリシーを適応的に調整する意味駆動型コンテキスト型マルチターンアタック手法である。 我々は、CoAがLLMの脆弱性を効果的に暴露し、既存の攻撃方法より優れていることを示す。
論文 参考訳(メタデータ) (Thu, 09 May 2024 08:15:21 GMT) - マルチターンな攻撃方法
- リポジトリはGitHub – YancyKahn/CoA: CoA: Context-Aware based Chain of Attack for Multi-Turn Dialogue LLM
DeepSeek v2, Llama 3 Youko 8B, AlphaFold 3
来週OpenAIから大きな発表があるとアナウンスされているが、今週もLLM関連の話題は多かった。注目はMoEなDeepSeek v2でありコンテキスト長、性能とも非常に期待できそう。日本語話者としてはLlama 3の日本語強化バージョンであるLlama 3 Youko 8Bにも注目である。
rinna、Llama 3の日本語継続事前学習モデル「Llama 3 Youko 8B」を公開|rinna株式会社
そして、AlphaFold3の論文がNatureに発表されている。LLM関連ではないがモデルの意義や影響は大きい。最新アーキテクチャの適用など研究を続け、かつ、成果を出しているのがすごい。
Google DeepMind and Isomorphic Labs introduce AlphaFold 3 AI model (blog.google)
- DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model [0.0]
We present DeepSeek-V2, a strong Mixture-of-Experts (MoE) language model characterized by economical training and efficient inference。 DeepSeek-V2は、MLA(Multi-head Latent Attention)やDeepSeekMoEといった革新的なアーキテクチャを採用している。合計パラメータは236Bで、そのうち21Bはトークンごとに活性化され、128Kトークンのコンテキスト長をサポートする。 DeepSeek-V2はDeepSeek 67Bと比較して大幅に性能が向上し、トレーニングコストは42.5%削減された。
論文 参考訳(メタデータ) (Tue, 07 May 2024 15:56:43 GMT) - Activeなパラメータが20B程度でMixtral 8x22BやLlama 3 70Bと競合する性能を主張、ライセンスは独自だがかなり寛容的なものに見える。
- リポジトリはGitHub – deepseek-ai/DeepSeek-V2、Weightはdeepseek-ai/DeepSeek-V2 · Hugging Face、deepseek-ai/DeepSeek-V2-Chat · Hugging Face