法律 – arXiv最新論文の紹介

Evaluation Ethics of LLMs in Legal Domain

Evaluation Ethics of LLMs in Legal Domain [35.7]
本稿では,大規模言語モデル (LLM) の基本的言語能力, 専門的法的知識, 法的堅牢性を評価するために, 真正の法的事例を利用する新規性評価手法を提案する。包括的評価から得られた知見は,法律領域における大規模言語モデルの適合性と性能に関する学術的議論に大きく貢献する。
論文参考訳（メタデータ） (Sun, 17 Mar 2024 09:05:13 GMT)
LLMに対する法的ドメインでの評価、社会実装を考えるうえでとても重要。「Legal Instruction Following（正しく命令に従うか）」「Legal Knowledge（ Gender Bias, Age Bias, Career Biasを持っていないか）」「 Legal Robustness（回答の一貫性と誘導されないか）」を検証。Legal Knowledgeの「 Qwen-Chat (14B/7B) demonstrates a strong ability in recognizing legal elements, while GPT4 could become more viable if it addresses sentencing biases stemming from gender.」はやや意外な結果。
残念ながら「Highlight the widespread shortcomings of LLMs in fairness and robustness.」とのこと。。。

LEXTREME: A Multi-Lingual and Multi-Task Benchmark for the Legal Domain [12.3]
法的なNLP文献を調査し、LEXTREMEを作成する24言語を含む11のデータセットを選択した。ベストベースライン(XLM-R大)は、両方のデータセットアグリゲーションが言語アグリゲーションスコア61.3を達成する。これは、LEXTREMEが依然として非常に困難であり、改善の余地が十分にあることを示している。
論文参考訳（メタデータ） (Mon, 30 Jan 2023 18:05:08 GMT)
法律ドメインのマルチリンガルデータセット・ベンチマーク
（お前がやれという話ではあるが）この手のデータに日本語を差し込んでいかないと、という危機感がある。。。
データセット・リポジトリはjoelito/lextreme · Datasets at Hugging Face、GitHub – JoelNiklaus/LEXTREME: This repository provides scripts for evaluating NLP models on the LEXTREME benchmark, a set of diverse multilingual tasks in legal NLP

Mining Legal Arguments in Court Decisions [43.1]
我々は,欧州人権裁判所の手続において,法的議論のための新たな注釈体系を開発する。まず,欧州人権裁判所(ECHR)の手続における法的議論のための新たな注釈体系を設計し,法的議論研究の理論と実践に深く根ざしている。第二に、373の判決(トークン2.3Mと15kの注釈付き引数)の大きなコーパスをコンパイルし、注釈付けします。最後に、法的なnlpドメインにおける最先端モデルを上回る議論マイニングモデルを訓練し、専門家による徹底的な評価を提供する。
論文参考訳（メタデータ） (Fri, 12 Aug 2022 08:59:55 GMT)
- 法的な議論のための大規模コーパス作成と分類モデルの構築。
  - ドメイン特化な研究は面白いが法律系での実際の使われ方がよくわかっていないので、評価関連がこれでよいのかが謎。Leak系の問題への対応はどうやっているのだろう。
- trusthlt/mining-legal-arguments: Mining Legal Arguments in Court Decisions – Data and software (github.com)