Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization

  • Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization [126.3]
    さまざまなドメインにまたがる6つのベンチマークデータセットのコレクションであるEasy2Hard-Benchを紹介します。 これらのデータセット内の各問題は、数値的な難易度スコアで注釈付けされる。 様々な難易度にまたがる性能と一般化能力を総合的に分析する。
    論文  参考訳(メタデータ)   (Fri, 27 Sep 2024 03:49:56 GMT)
  • 「While generalization over tasks from easy to hard is crucial to profile language models (LLMs), the datasets with fine-grained difficulty annotations for each problem across a broad range of complexity are still blank.」とのことで作られたデータセット。面白い傾向が出ている一方でLLMのベンチマークで主要な対象にされているところは難易度を分けるのにも苦労しそうな印象がある。
  • リポジトリはfuronghuang-lab/Easy2Hard-Bench · Datasets at Hugging Face

Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision

  • Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision [99.0]
    現在のAIアライメント手法は、人間が提供する実演や判断に依存している。 彼らの能力が人間のレベルを超えたとき、システムを改善するにはどうすればよいのか?
    論文  参考訳(メタデータ)   (Thu, 14 Mar 2024 15:12:38 GMT)
  • The Unreasonable Effectiveness of Easy Training Data for Hard Tasks – arXiv最新論文の紹介 (devneko.jp)でも取り上げられていた話だが、PRMs(process reward models)やOPRMs(Outcome & Process Reward Model)を用いるとさらに有効とのこと。
  • AGIやASIという話を聞くにこのような手法の重要性が高まっているように思う(一方で結論にある「This approach presents a promising direction for developing AI systems capable of surpassing human problem-solving capabilities」のように人間がEasy側に位置づけられるのは複雑な思いもある)
  • リポジトリはEdward-Sun/easy-to-hard (github.com)

The Unreasonable Effectiveness of Easy Training Data for Hard Tasks