- Self-Taught Evaluators [77.9]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。 我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (Mon, 05 Aug 2024 17:57:02 GMT) - 基本的に簡単ではない評価を行うモデルを合成データ経由で作る研究。
- 「Our Self-Taught evaluator with iterative training over these synthetic preferences greatly boosts the accuracy of a strong seed LLM (Llama3-70B-Instruct) as an evaluator, from 75.4 to 88.7 on RewardBench, a new state-ofthe-art for generative LLM-as-a-Judge methods.」とのこと。通常のモデル構築における合成データの有効性を鑑みると驚きではないものの、(これ以外でも最近のself-なんとかな報告を見ると)この方向性を突き詰めるとAGIに・・・という気がしないでもない。
Self taughtだとSTaR(Self-Taught Reasoner)関連も面白い。
- Lean-STaR: Learning to Interleave Thinking and Proving [53.9]
証明の各ステップに先立って,非公式な思考を生成するために,言語モデルをトレーニングするフレームワークであるLean-STaRを紹介します。 Lean-STaRは、Lean定理証明環境内のminiF2F-testベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (Sun, 14 Jul 2024 01:43:07 GMT)
- Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking [34.6]
自己学習型推論器の一般化であるQuiet-STaRについて述べる。 LMは、将来のテキストを説明するために各トークンで合理性を生成することを学ぶ。 GSM8KとCommonsenseQAではゼロショットの改善が見られた。
論文 参考訳(メタデータ) (Thu, 14 Mar 2024 17:58:16 GMT)
- STaR: Bootstrapping Reasoning With Reasoning [39.5]
自己学習推論(Slf-Taught Reason:STaR)は単純なループに依存し、多くの疑問に答えるために理性を生成する。 結果,STaRは最終回答を直接予測するモデルと比較して,複数のデータセットのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (Mon, 28 Mar 2022 03:12:15 GMT)