GPT-Fathom, NLPBench

  • NLPBench: Evaluating Large Language Models on Solving NLP Problems [41.0]
    大規模言語モデル(LLM)は、自然言語処理(NLP)の能力を高めることを約束している。 イェール大学の最終試験から得られた様々なNLPトピックにまたがる378の大学レベルのNLP質問を含む,ユニークなベンチマークデータセットであるNLPBenchを提案する。 GPT-3.5/4, PaLM-2, LLAMA-2などのLCMに着目した評価では, チェーン・オブ・シークレット(CoT)やツリー・オブ・シークレット(ToT)といった先進的なプロンプト戦略が取り入れられている。
    論文  参考訳(メタデータ)   (Wed, 27 Sep 2023 13:02:06 GMT)
  • NLPコースの試験から作られたデータセット
  • モデル×手法(Zero/Few shot, CoT, ToT)の結果が興味深い。
  • GitHub – LinxinS97/NLPBench: NLPBench: Evaluating NLP-Related Problem-solving Ability in Large Language Models

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です