PromptBench

  • PromptBench: A Unified Library for Evaluation of Large Language Models [33.8]
    大規模言語モデル(LLM)を評価する統合ライブラリであるPromptBenchを紹介する。 プロンプト構築、プロンプトエンジニアリング、データセットとモデルのローディング、敵のプロンプトアタック、動的評価プロトコル、分析ツールなど、研究者が使いやすく拡張した重要なコンポーネントで構成されている。
    論文  参考訳(メタデータ)   (Wed, 13 Dec 2023 05:58:34 GMT)
  • LLM(に対するプロンプト)の評価を行うためのフレームワーク。簡単に使えそう&便利そう
  • リポジトリはGitHub – microsoft/promptbench: A unified evaluation framework for large language models

Captum

  • Using Captum to Explain Generative Language Models [6.0]
    CaptumはPyTorchのモデル説明可能性のためのライブラリである。 本稿では、生成言語モデルの振る舞いを分析するために特別に設計された新機能を紹介する。
    論文  参考訳(メタデータ)   (Sat, 9 Dec 2023 07:35:24 GMT)
  • Pytorchのための説明用ライブラリ、Gradient系もPerturbation系も様々な手法が実装されているよう。
  • リポジトリはCaptum · Model Interpretability for PyTorch