OLMoE, Reflection-70B, Tanuki-8×8B, 8B – arXiv最新論文の紹介

OSSまたは公開モデルのLLM開発は引き続き盛んである。

OLMoE-1B-7BはMoE構成の小規模・高性能モデル（リポジトリ：allenai/OLMoE-1B-7B-0924 · Hugging Face、Apache-2ライセンス）で論文も公表されている。

Reflection-70Bは現時点で最高レベルの性能をもつ公開モデル（リポジトリ：mattshumer/Reflection-Llama-3.1-70B · Hugging Face、Llama 3.1ライセンス）、現状詳細は公開されていなさそうだが、「Reflection Llama-3.1 70B is (currently) the world’s top open-source LLM, trained with a new technique called Reflection-Tuning that teaches a LLM to detect mistakes in its reasoning and correct course. The model was trained on synthetic data generated by Glaive.」との記載がある。

日本でも東京大学松尾・岩澤研究室 GENIACプロジェクトにおいて、大規模言語モデル「Tanuki-8×8B」を開発・公開 | 東京大学松尾・岩澤研究室（松尾研）- Matsuo Lab (u-tokyo.ac.jp)が発表されているのが素晴らしい。こちらは開発過程が大規模言語モデルTanuki-8B, 8x8Bの位置づけや開発指針など (zenn.dev)で公開されている。合成データの活用は最近発表された海外モデルでも多用されているテクニック。

OLMoE: Open Mixture-of-Experts Language Models [180.2]
OLMoEは、Sparse Mixture-of-Experts (MoE)を利用した、完全にオープンで最先端の言語モデルである。 OLMoE-1B-7Bは70億(B)のパラメータを持つが、入力トークンごとに1Bしか使用しない。 5兆のトークンで事前トレーニングし、さらにOLMoE-1B-7B-インストラクトを作成するように適応します。
論文参考訳（メタデータ） (Tue, 03 Sep 2024 17:08:20 GMT)

Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.3]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。我々は「反射チューニング」と呼ばれる新しい手法を提案する。このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文参考訳（メタデータ） (Wed, 18 Oct 2023 05:13:47 GMT)
Selective Reflection-Tuning: Student-Selected Data Recycling for LLM Instruction-Tuning [39.7]
最近の多くの手法はデータ品質の改善に重点を置いているが、学生モデルとの互換性を見落としていることが多い。本稿では,教師のLLMのリフレクションとイントロスペクションを相乗化して既存のデータ品質を改善する新パラダイムであるSelective Reflection-Tuningを紹介する。この教師と学生の協調作業により、高品質で生徒互換の授業応答ペアが作成され、結果としてサンプル効率のよい指導チューニングがもたらされる。
論文参考訳（メタデータ） (Fri, 07 Jun 2024 20:23:21 GMT)
リポジトリはGitHub – tianyi-lab/Reflection_Tuning: [ACL’24] Selective Reflection-Tuning: Student-Selected Data Recycling for LLM Instruction-Tuning

月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル