- GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond [31.3]
GPT-Fathomは、OpenAI Evals上に構築された大規模言語モデル(LLM)のための、オープンソースで再現可能な評価スイートである。 私たちは,7つの機能カテゴリにまたがる20以上のベンチマークで,10以上のLLMとOpenAIのレガシモデルを評価しました。
論文 参考訳(メタデータ) (Thu, 28 Sep 2023 16:43:35 GMT) - GitHub – openai/evals: Evals is a framework for evaluating LLMs and LLM systems, and an open-source registry of benchmarks. を用いた評価
- NLPBench: Evaluating Large Language Models on Solving NLP Problems [41.0]
大規模言語モデル(LLM)は、自然言語処理(NLP)の能力を高めることを約束している。 イェール大学の最終試験から得られた様々なNLPトピックにまたがる378の大学レベルのNLP質問を含む,ユニークなベンチマークデータセットであるNLPBenchを提案する。 GPT-3.5/4, PaLM-2, LLAMA-2などのLCMに着目した評価では, チェーン・オブ・シークレット(CoT)やツリー・オブ・シークレット(ToT)といった先進的なプロンプト戦略が取り入れられている。
論文 参考訳(メタデータ) (Wed, 27 Sep 2023 13:02:06 GMT) - NLPコースの試験から作られたデータセット
- モデル×手法(Zero/Few shot, CoT, ToT)の結果が興味深い。
- GitHub – LinxinS97/NLPBench: NLPBench: Evaluating NLP-Related Problem-solving Ability in Large Language Models