Evaluation Ethics of LLMs in Legal Domain [35.7] 本稿では,大規模言語モデル (LLM) の基本的言語能力, 専門的法的知識, 法的堅牢性を評価するために, 真正の法的事例を利用する新規性評価手法を提案する。 包括的評価から得られた知見は,法律領域における大規模言語モデルの適合性と性能に関する学術的議論に大きく貢献する。 論文参考訳(メタデータ) (Sun, 17 Mar 2024 09:05:13 GMT)
LLMに対する法的ドメインでの評価、社会実装を考えるうえでとても重要。「Legal Instruction Following(正しく命令に従うか)」「Legal Knowledge( Gender Bias, Age Bias, Career Biasを持っていないか)」「 Legal Robustness(回答の一貫性と誘導されないか)」を検証。Legal Knowledgeの「 Qwen-Chat (14B/7B) demonstrates a strong ability in recognizing legal elements, while GPT4 could become more viable if it addresses sentencing biases stemming from gender.」はやや意外な結果。
残念ながら「Highlight the widespread shortcomings of LLMs in fairness and robustness.」とのこと。。。