Evaluation Ethics of LLMs in Legal Domain

  • Evaluation Ethics of LLMs in Legal Domain [35.7]
    本稿では,大規模言語モデル (LLM) の基本的言語能力, 専門的法的知識, 法的堅牢性を評価するために, 真正の法的事例を利用する新規性評価手法を提案する。 包括的評価から得られた知見は,法律領域における大規模言語モデルの適合性と性能に関する学術的議論に大きく貢献する。
    論文  参考訳(メタデータ)   (Sun, 17 Mar 2024 09:05:13 GMT)
  • LLMに対する法的ドメインでの評価、社会実装を考えるうえでとても重要。「Legal Instruction Following(正しく命令に従うか)」「Legal Knowledge( Gender Bias, Age Bias, Career Biasを持っていないか)」「 Legal Robustness(回答の一貫性と誘導されないか)」を検証。Legal Knowledgeの「 Qwen-Chat (14B/7B) demonstrates a strong ability in recognizing legal elements, while GPT4 could become more viable if it addresses sentencing biases stemming from gender.」はやや意外な結果。
  • 残念ながら「Highlight the widespread shortcomings of LLMs in fairness and robustness.」とのこと。。。

LEXTREME

法的議論と自然言語処理

  • Mining Legal Arguments in Court Decisions [43.1]
    我々は,欧州人権裁判所の手続において,法的議論のための新たな注釈体系を開発する。 まず,欧州人権裁判所(ECHR)の手続における法的議論のための新たな注釈体系を設計し,法的議論研究の理論と実践に深く根ざしている。 第二に、373の判決(トークン2.3Mと15kの注釈付き引数)の大きなコーパスをコンパイルし、注釈付けします。 最後に、法的なnlpドメインにおける最先端モデルを上回る議論マイニングモデルを訓練し、専門家による徹底的な評価を提供する。
    論文  参考訳(メタデータ)   (Fri, 12 Aug 2022 08:59:55 GMT)