- PromptBench: A Unified Library for Evaluation of Large Language Models [33.8]
大規模言語モデル(LLM)を評価する統合ライブラリであるPromptBenchを紹介する。 プロンプト構築、プロンプトエンジニアリング、データセットとモデルのローディング、敵のプロンプトアタック、動的評価プロトコル、分析ツールなど、研究者が使いやすく拡張した重要なコンポーネントで構成されている。
論文 参考訳(メタデータ) (Wed, 13 Dec 2023 05:58:34 GMT) - LLM(に対するプロンプト)の評価を行うためのフレームワーク。簡単に使えそう&便利そう
- リポジトリはGitHub – microsoft/promptbench: A unified evaluation framework for large language models