- LEXTREME: A Multi-Lingual and Multi-Task Benchmark for the Legal Domain [12.3]
法的なNLP文献を調査し、LEXTREMEを作成する24言語を含む11のデータセットを選択した。 ベストベースライン(XLM-R大)は、両方のデータセットアグリゲーションが言語アグリゲーションスコア61.3を達成する。 これは、LEXTREMEが依然として非常に困難であり、改善の余地が十分にあることを示している。
論文 参考訳(メタデータ) (Mon, 30 Jan 2023 18:05:08 GMT) - 法律ドメインのマルチリンガルデータセット・ベンチマーク
- (お前がやれという話ではあるが)この手のデータに日本語を差し込んでいかないと、という危機感がある。。。
- データセット・リポジトリはjoelito/lextreme · Datasets at Hugging Face、GitHub – JoelNiklaus/LEXTREME: This repository provides scripts for evaluating NLP models on the LEXTREME benchmark, a set of diverse multilingual tasks in legal NLP