Self-Improving LLM Agents at Test-Time

  • Self-Improving LLM Agents at Test-Time [49.9]
    言語モデル(LM)の1つのパラダイムは、大規模なトレーニングデータセットの作成に依存している。 実際には、大量のデータを集めることは非効率であり、それらのトレーニングは違法に高価である。 テスト時間自己改善(TT-SI)とテスト時間蒸留(TT-D)の2つのバリエーションについて検討する。
    論文  参考訳(メタデータ)   (Thu, 09 Oct 2025 06:37:35 GMT)
  • 「(i) identify uncertain samples via a novel uncertainty estimator, (ii) generate new training instances similar to these samples, and (iii) update the model online.」というステップからなるself improvement。「Test-Time Self-Improvement (TT-SI), where the model trains on self-generated samples using parameter efficient fine-tuning techniques (PEFT) (Hu et al , 2022), and Test-Time Distillation (TT-D) where adaptation is guided by supervision from samples synthesized by a more capable teacher model.」の2種類を検討している(後者はself-improvingなのか若干疑問ではあるが。。)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です