コンテンツへスキップ
- LoRA vs Full Fine-tuning: An Illusion of Equivalence [76.1]
本研究では, 異なる微調整法が, スペクトル特性のレンズを用いてモデルの重み行列を解析することにより, 事前学習モデルを変化させる方法について検討した。 単一値分解が全く異なる構造を持つ全微調整およびLoRA収量行列が得られた。 イントルーダ次元がLoRAの微調整モデルになぜ現れるのか、なぜそれらが望ましくないのか、そしてどのようにしてその効果を最小化できるかを検討することで結論を下す。
論文 参考訳(メタデータ) (Mon, 28 Oct 2024 17:14:01 GMT)
- LoRAで得られたWeightとファインチューニングで得られたWeightの差異を分析、「More specifically, we first show that the weight matrices trained with LoRA have new, high-ranking singular vectors, which we call intruder dimensions. Intruder dimensions do not appear during full fine-tuning. Second, we show that LoRA models with intruder dimensions, despite achieving similar performance to full fine-tuning on the target task, become worse models of the pre-training distribution and adapt less robustly to multiple tasks sequentially. :とのこと。
- 興味深い性質であると思うのと、頑健性を評価するのは大変なので問題が見過ごされやすそうなのが若干怖い。
- Vulnerability of LLMs to Vertically Aligned Text Manipulations [108.7]
大規模言語モデル(LLM)は、テキスト分類タスクの実行に非常に効果的である。 エンコーダベースのモデルのために単語を垂直に整列させるような入力形式を変更することは、テキスト分類タスクにおいてかなり精度を低下させる。 デコーダベースのLLMは、垂直フォーマットのテキスト入力と同じような脆弱性を示すか?
論文 参考訳(メタデータ) (Sat, 26 Oct 2024 00:16:08 GMT)
- いわゆる縦書きが分類タスクに与える影響とその緩和策を検討した論文。英語がターゲットになっているが、横書き・縦書き混在が割と普通にある日本語での検証を行うと面白そうに思う。
- 「the model’s enhanced performance with few-shot learning, particularly when compared to the CoT output」とFew shotが比較的有効とのこと。