コンテンツへスキップ
- Why Not Transform Chat Large Language Models to Non-English? [57.2]
非英語データの不足は、非英語大言語モデル(LLM)の開発を制限する TransLLMは、転送問題を変換チェーン・オブ・シント(translation chain of-of- Thought)でいくつかの一般的なサブタスクに分割する。 本手法は,シングルターンデータのみを用いて,マルチターンベンチマークMT-benchにおいて,強いベースラインとChatGPTより優れる。
論文 参考訳(メタデータ) (Wed, 22 May 2024 18:53:25 GMT)
- LLMを他の言語に対応させる手法の提案。Target Language Pre-Training → Translation Pre-Training → Transfer Fine-Tuningという流れで翻訳をキーとしている。
- MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning [105.1]
低ランク適応は、大規模言語モデルのためのパラメータ効率の良い微調整法として人気がある。 トレーニング可能なパラメータ数を同じ数に保ちながら、高階更新を実現するために2乗行列を用いるMoRAと呼ばれる新しい手法を提案する。 本手法はメモリ集約型タスクではLoRAより優れ,他のタスクでは同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (Mon, 20 May 2024 15:48:32 GMT)
- 正方行列を用いたLoRAの改善
- リポジトリはGitHub – kongds/MoRA