FELM: Factuality Evaluation of large Language Models

  • FELM: Benchmarking Factuality Evaluation of Large Language Models [40.8]
    本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。 我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。 その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
    論文  参考訳(メタデータ)   (Sun, 1 Oct 2023 17:37:31 GMT)
  • world knowledge、 science/technology、 writing/recommendation、 reasoning、mathのドメインからなるベンチマーク、アノテーションがめっちゃしんどそう。。。
  • リポジトリはGitHub – hkust-nlp/felm: Github repository for “FELM: Benchmarking Factuality Evaluation of Large Language Models”

LLMを含む金融分野のNLP評価

  • Is ChatGPT a Financial Expert? Evaluating Language Models on Financial Natural Language Processing [22.8]
    FinLMEvalは金融言語モデル評価のためのフレームワークである。 本研究では,エンコーダのみの言語モデルとデコーダのみの言語モデルの性能を比較した。
    論文  参考訳(メタデータ)   (Thu, 19 Oct 2023 11:43:15 GMT)
  • 複数の金融分野でのデータセットでBERTなどencoder系モデル+finetuning、LLMを比較、「Our results show that fine-tuning expert encoder-only models generally perform better than the decoder-only LLMs on the financial NLP tasks, and adding in-context demonstrations barely improves the results.」とのこと。前半はそうだろうという結果だが、後半はちょっと不思議。