- Compress to Impress: Unleashing the Potential of Compressive Memory in Real-World Long-Term Conversations [41.9]
本研究は,従来の検索モジュールやメモリデータベースを活用する新しいフレームワークであるCOMEDY(Commpressive Memory-Enhanced Dialogue sYstems)を紹介する。 COMEDYの中心は圧縮メモリの概念であり、セッション固有の要約、ユーザー・ボットのダイナミクス、過去のイベントを簡潔なメモリ形式に解釈する。
論文 参考訳(メタデータ) (Mon, 19 Feb 2024 09:19:50 GMT) - 長い対話を効率多岐に扱うフレームワークの提案、よくあるretrieval basedなアプローチに比べ高いスコア。
- RAGも汎用では厳しく特化すると性能が上がる分野なんだろーなと思う。
- リポジトリはnuochenpku/COMEDY: This is the official project of paper: Compress to Impress: Unleashing the Potential of Compressive Memory in Real-World Long-Term Conversations (github.com)
投稿者: staka
Understanding and Mitigating the Threat of Vec2Text to Dense Retrieval Systems
- Understanding and Mitigating the Threat of Vec2Text to Dense Retrieval Systems [30.8]
テキスト埋め込みを反転させるテクニックであるVec2Textは、高密度検索システム内で深刻なプライバシー上の懸念を提起している。 本稿では,Vec2Textを用いたテキストの復元性に影響を与えるであろう埋め込みモデルの様々な側面について検討する。 そこで本研究では,テキスト復元可能性のリスクを軽減しつつ,同等のランク付け効率を確保できる埋め込み変換の修正を提案する。
論文 参考訳(メタデータ) (Tue, 20 Feb 2024 07:49:30 GMT) - 実務でもたまに話題になる2vecを戻せるか問題と戻せなくするための手法の提案。「Methods like Vec2Text, which can successfully reconstruct the original text from an embedding, could pose serious privacy risks, especially now embeddings are made publicly available via APIs (e g , OpenAI or Cohere).」とのことで、再現もできていて脅威になるよう。
- リポジトリはielab/vec2text-dense_retriever-threat: Is Vec2Text Really a Threat toDense Retrieval Systems? (github.com)、jxmorris12/vec2text: utilities for decoding deep representations (like sentence embeddings) back to text (github.com)をベースに再現実験を行ったとのこと、weightもう公開されているielabgroup/vec2text_gtr-base-st_corrector · Hugging Face
Beyond Language Models: Byte Models are Digital World Simulators
- Beyond Language Models: Byte Models are Digital World Simulators [68.9]
bGPTは、デジタルワールドをシミュレートする次のバイト予測モデルである。 これは、テキスト、オーディオ、画像など、様々なモダリティにわたるパフォーマンスの特殊なモデルと一致している。 シンボリックな音楽データを変換する過程をほぼ完璧に再現し、1バイトあたり0.0011ビットの誤り率を達成した。
論文 参考訳(メタデータ) (Thu, 29 Feb 2024 13:38:07 GMT) - テキストではなくバイトを扱うGPT系モデル。「 training models for next byte prediction can potentially lead to a paradigm shift in deep learning, allowing them to truly understand and simulate all activities in the digital world.」はそうだが熱すぎる。そして、それなりに動いていそうなのが興味深い。Sequential Modeling Enables Scalable Learning for Large Vision Models – arXiv最新論文の紹介 (devneko.jp)を思い出すアプローチ。
- リポジトリはBeyond Language Models: Byte Models are Digital World Simulators (byte-gpt.github.io)
XRL-Bench
- XRL-Bench: A Benchmark for Evaluating and Comparing Explainable Reinforcement Learning Techniques [36.3]
強化学習(Reinforcement Learning, RL)は、様々な分野において大きな可能性を証明しているが、その意思決定プロセスを理解することは、現在進行中の課題である。 本稿では, 説明可能なAI(XAI)のサブフィールドである説明可能なRL(XRL)について述べる。 我々の焦点は状態記述技術であり、XRL法における重要な部分集合であり、エージェントの行動にいつでも影響を及ぼす要因を明らかにすることである。
論文 参考訳(メタデータ) (Tue, 20 Feb 2024 03:20:37 GMT) - 説明可能な強化学習のためのベンチマーク
- リポジトリはfuxiAIlab/xrl-bench (github.com)
Video as the New Language for Real-World Decision Making
- Video as the New Language for Real-World Decision Making [100.7]
ビデオデータは、言語で表現しにくい物理世界に関する重要な情報をキャプチャする。 ビデオは、インターネットの知識を吸収し、多様なタスクを表現できる統一インターフェースとして機能する。 ロボット工学、自動運転、科学といった分野における大きなインパクトの機会を特定します。
論文 参考訳(メタデータ) (Tue, 27 Feb 2024 02:05:29 GMT) - ビデオの合成を通して現実世界のタスクを解けるのでは?という論文。SORAとGemini-1.5 – arXiv最新論文の紹介 (devneko.jp)をみるとあながち未来の話ではないのかもしれない。OpenAIだけでなく、Google DeepMindも同じ見解なのかという意味でも興味深い。
- 「Challenges like hallucination and generalization notwithstanding, video generation models have the potential to become autonomous agents, planners, environment simulators, and compute engines, and to eventually serve as the artificial brain to think and act in the physical world.」という記載が印象的。
Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models
- Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [122.3]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。 LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。 以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (Mon, 26 Feb 2024 09:36:05 GMT) - LLMの多言語対応が浅い層の比較的少数のニューロンによって実現されているのではないか?という報告。LAPE: Language Activation Probability Entropyという指標を作り、1つか2つの言語にのみ強く反応するニューロンを特定しているよう。
- mBERTの時代から意外と容易に多言語性が得られていたので納得感のある結果。LoRAなどで多言語性が破壊されないように見えるのも同じ理由なんだろうか。論文にもある通り選択的に多言語特性を残せると面白いと思う。
- How do Large Language Models Handle Multilingualism? [87.1]
大規模言語モデル(LLM)は、様々な言語で顕著な性能を示す。 LLMの多言語入力処理を記述したフレームワークを提案する。 さらに,特定の言語処理における言語特異的ニューロンの存在について検討する。
論文 参考訳(メタデータ) (Thu, 29 Feb 2024 02:55:26 GMT) - 別チームによる報告だが検証している「we introduce a hypothesis suggesting that LLMs address multilingualism by first translating queries into English, processing them using English with the help of multilingual knowledge, and then translating the responses back into the original language.」は上記に近いように思う。
- 「Moreover, enhancing the multilingual capabilities of LLMs can be achieved by fine-tuning languagespecific neurons with merely 200 contextual examples.」も衝撃的。
1 bit(1.58 bit)なLLMとHAWK・Griffin
LLMにおいて高速化は非常に重要。先週バズった「The Era of 1-bit LLMs」と「Griffin」は異なるアプローチではあるが今の標準レシピを改善していく取り組み。
- The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits [129.7]
我々は1ビットのLarge Language Models (LLMs) 、すなわちBitNet b1.58を導入する。 1.58ビット LLM は、新しい世代の LLM を訓練するための新しいスケーリング法則とレシピを定義している。 これは新しいパラダイムを可能にし、1ビットLLM向けに最適化された特定のハードウェアを設計するための扉を開く。
論文 参考訳(メタデータ) (Tue, 27 Feb 2024 18:56:19 GMT) - -1, 0, 1のみを用いたLLM(学習時は8bit)、高速な学習・推論が可能
- リポジトリはmicrosoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities (github.com)、非公式な実装があるようkyegomez/BitNet: Implementation of “BitNet: Scaling 1-bit Transformers for Large Language Models” in pytorch (github.com)
- Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models [101.7]
我々は、ゲート線形再帰を持つRNNのHawkと、ゲート線形再帰と局所的な注意を混合したハイブリッドモデルGriffinを提案する。 ホークは下流でのマンバのパフォーマンスを上回り、グリフィンは6倍以上のトークンで訓練されているにもかかわらず、ラマ-2のパフォーマンスに匹敵する。 Griffinを14Bパラメータまで拡張し、効率的な分散トレーニングのためにモデルをシャーディングする方法を説明します。
論文 参考訳(メタデータ) (Thu, 29 Feb 2024 18:24:46 GMT) - RNNベースのHAWK、ハイブリッドアーキテクチャのGriffinの提案。HAWKは非常に高速だが、性能は同規模のTransformerと競合するレベル(Mambaより優れているよう)。Griffinはそれをoutperformしているように見える。7Bや14Bと大規模な検証をしているあたりさすがGoogle DeepMind。
LLM用金融ベンチマークと金融特化型LLM
LLMでも金融分野の研究は多い。
- The FinBen: An Holistic Financial Benchmark for Large Language Models [75.1]
FinBenは、金融分野におけるLLMの能力を徹底的に評価するために設計された、初めての包括的なオープンソース評価ベンチマークである。 FinBenは、23の財務タスクにわたる35のデータセットを含み、Cattell-Horn-Carroll理論にインスパイアされた3つの難易度に分類されている。 GPT-4, ChatGPT, そして最新のGeminiを含む15の代表的なLLMを評価した結果, 金融分野におけるその強みと限界についての知見が得られた。
論文 参考訳(メタデータ) (Tue, 20 Feb 2024 02:16:16 GMT) - 金融分野におけるLLMの評価用ベンチマーク、GPT-4はさすがの性能だがGeminiもよい線を行っていてタスクによっては優れている。Gemini Proの結果のようであり、Ultraが楽しみ
- リポジトリはThe-FinAI/PIXIU: This repository introduces PIXIU, an open-source resource featuring the first financial large language models (LLMs), instruction tuning data, and evaluation benchmarks to holistically assess financial LLMs. Our goal is to continually push forward the open-source development of financial artificial intelligence (AI). (github.com)
- FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models [20.0]
FinTralは、Mistral-7bモデルに基づいて構築され、財務分析用に調整された、最先端のマルチモーダル言語モデル(LLM)のスイートである。 我々はFinTralをドメイン固有の事前訓練、命令微調整、RLAIFトレーニングで強化する。 我々のFinTralモデルは、FinTral-DPO-T&Rと呼ばれる高度なツールと検索手法を用いて直接選好最適化を訓練し、例外的なゼロショット性能を示す。
論文 参考訳(メタデータ) (Fri, 16 Feb 2024 05:05:12 GMT) - こちらはMistralをベースにしたLLM
- ドメイン特化であれば7BでGPT-4と十分戦える点は面白い
Benchmarking Retrieval-Augmented Generation for Medicine / Medical Information Retrieval-Augmented Generation Evaluation (MIRAGE)
- Benchmarking Retrieval-Augmented Generation for Medicine [30.4]
大規模言語モデル(LLM)は、幅広い医療質問応答(QA)タスクにおいて最先端のパフォーマンスを達成した。 Retrieval-augmented Generation(RAG)は有望なソリューションであり、広く採用されている。 我々は、5つの医療QAデータセットから7,663の質問を含む第一種ベンチマークであるMIRAGE(Medicical Information Retrieval-Augmented Generation Evaluation)を提案する。
論文 参考訳(メタデータ) (Tue, 20 Feb 2024 17:44:06 GMT) - ベンチマークを作成し医療分野でのRAGの有効性について検証、CoTとの比較や使用しているLLMごとの差異などとても興味深い結果になっている。BM25ってやはりかなり優秀なのでは。
- リポジトリはMIRAGE:Teddy-XiongGZ/MIRAGE: Official repository of the MIRAGE benchmark (github.com)、MEDRAG:Teddy-XiongGZ/MedRAG: Code for the MedRAG toolkit (github.com)
Do Membership Inference Attacks Work on Large Language Models?
- Do Membership Inference Attacks Work on Large Language Models? [145.9]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。 我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。 様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文 参考訳(メタデータ) (Mon, 12 Feb 2024 17:52:05 GMT) - LLMへのメンバシップ推論攻撃は有効ではないのでは?という報告。「We identify specific settings where LLMs have been shown to be vulnerable to membership inference and show that the apparent success in such settings can be attributed to a distribution shift, such as when members and non-members are drawn from the seemingly identical domain but with different temporal ranges.」と手厳しい。結論にも書いてあったが、こういった特性を理解せずに何かに応用するのは危険であると思う。
- リポジトリはiamgroot42/mimir: Python package for measuring memorization in LLMs (github.com)