Self-Alignment with Instruction Backtranslation

Self-Alignment with Instruction Backtranslation [133.1]
本稿では,人文テキストに対応する命令を自動ラベル付けすることで,高品質な命令従言語モデルを構築する方法を提案する。我々の手法は命令バックトランスレーションと呼ばれ、少量のシードデータと与えられたWebコーパスに基づいて微調整された言語モデルから始まります。
論文参考訳（メタデータ） (Fri, 11 Aug 2023 17:47:54 GMT)
unlabeledなデータを活用する手法の提案。考え方としては機械翻訳におけるBack translationに近く「Self-augment: unlabeledなデータから(instruction, output)ペアを作成」「Self-curate: fine tune用のデータとして高品質なデータを選択」からなる。
結果得られたモデルは Alpaca leaderboardで他モデル（ChatGPT, GPT-4など）に依存しないモデルをoutperformしたとのこと。

コメントを残す

コメントを残す コメントをキャンセル