GPT-Fathom, NLPBench

  • NLPBench: Evaluating Large Language Models on Solving NLP Problems [41.0]
    大規模言語モデル(LLM)は、自然言語処理(NLP)の能力を高めることを約束している。 イェール大学の最終試験から得られた様々なNLPトピックにまたがる378の大学レベルのNLP質問を含む,ユニークなベンチマークデータセットであるNLPBenchを提案する。 GPT-3.5/4, PaLM-2, LLAMA-2などのLCMに着目した評価では, チェーン・オブ・シークレット(CoT)やツリー・オブ・シークレット(ToT)といった先進的なプロンプト戦略が取り入れられている。
    論文  参考訳(メタデータ)   (Wed, 27 Sep 2023 13:02:06 GMT)
  • NLPコースの試験から作られたデータセット
  • モデル×手法(Zero/Few shot, CoT, ToT)の結果が興味深い。
  • GitHub – LinxinS97/NLPBench: NLPBench: Evaluating NLP-Related Problem-solving Ability in Large Language Models

Fin-Fact

  • Fin-Fact: A Benchmark Dataset for Multimodal Financial Fact Checking and Explanation Generation [31.2]
    Fin-Factは金融ドメイン内のマルチモーダル事実チェックのためのベンチマークデータセットである。 専門的なファクトチェッカーアノテーションと正当化が含まれ、専門知識と信頼性を提供する。
    論文  参考訳(メタデータ)   (Fri, 15 Sep 2023 22:24:00 GMT)
  • 金融分野のファクトチェッキング用データセット&ベンチマーク
  • リポジトリはGitHub – IIT-DM/Fin-Fact: A Benchmark Dataset for Multimodal Scientific Fact Checking、MITライセンスのよう