2023年2月15日 – arXiv最新論文の紹介

LEXTREME: A Multi-Lingual and Multi-Task Benchmark for the Legal Domain [12.3]
法的なNLP文献を調査し、LEXTREMEを作成する24言語を含む11のデータセットを選択した。ベストベースライン(XLM-R大)は、両方のデータセットアグリゲーションが言語アグリゲーションスコア61.3を達成する。これは、LEXTREMEが依然として非常に困難であり、改善の余地が十分にあることを示している。
論文参考訳（メタデータ） (Mon, 30 Jan 2023 18:05:08 GMT)
法律ドメインのマルチリンガルデータセット・ベンチマーク
（お前がやれという話ではあるが）この手のデータに日本語を差し込んでいかないと、という危機感がある。。。
データセット・リポジトリはjoelito/lextreme · Datasets at Hugging Face、GitHub – JoelNiklaus/LEXTREME: This repository provides scripts for evaluating NLP models on the LEXTREME benchmark, a set of diverse multilingual tasks in legal NLP

Toolformer: Language Models Can Teach Themselves to Use Tools [62.0]
言語モデル(LM)は、特に大規模において、いくつかの例やテキスト命令から新しいタスクを解く素晴らしい能力を示す。 LMは、シンプルなAPIを通じて外部ツールの使用を自覚し、両方の世界のベストを達成できることを示します。 Toolformerは、どのAPIを呼び出すか、いつ呼び出すか、どの引数を渡すか、結果を将来のトークン予測に最もうまく組み込む方法を訓練したモデルです。
論文参考訳（メタデータ） (Thu, 9 Feb 2023 16:49:57 GMT)
どのAPIを使うかを判断しながら自分で学んでいけるTransformer、と書くととても未来を感じる。外部知識の活用からの進化と考えれば妥当なのかも。
GPT-Jをベースに実験がされていて、より大きなモデル（GPT-3）よりも優れた性能を発揮。
昔はやったマッシュアップを思い出して非常に興味深い。