2023年4月5日 – arXiv最新論文の紹介

Foundation Models and Fair Use [96.0]
米国や他の国では、著作権のあるコンテンツは、公正な使用原理のために責任を負わずに基礎モデルを構築するために使われることがある。本研究では,著作権コンテンツに基づく基礎モデルの開発と展開の潜在的なリスクについて調査する。基礎モデルが公正な使用と一致し続けるのに役立つ技術的緩和について論じる。
論文参考訳（メタデータ） (Tue, 28 Mar 2023 03:58:40 GMT)
Foundation ModelとFair Useに関する分析。様々なデータセットにグレーなデータが入っているのは事実で「Thus, the risk of infringement is real, and fair use will not cover every scenario where a foundation model is created or used.」という指摘は重要
結局は裁判の中で決着していくものであろうし、日本の著作権法だとまた違った見解になるのだろうが、この報告の中では（完ぺきではないにしろ）緩和策にも触れられているのがありがたい。

The Nordic Pile: A 1.2TB Nordic Dataset for Language Modeling [5.7]
我々は、北ゲルマン語の主要言語すべてで1.2TBのテキストからなる高品質なデータセットをキュレートする。本稿では,データセットの収集,クリーニング,フィルタリングに関する考察とプロセスについて詳述する。
論文参考訳（メタデータ） (Thu, 30 Mar 2023 06:42:22 GMT)
デンマーク語,アイスランド語,ノルウェー語,スウェーデン語の1.2TBのデータセット構築に関する論文。1.2TBはPile（800GB）以上の規模で大規模言語モデル構築で十分機能するデータ量
日本語データを作ってみたいなーと思いつつ、参考になる情報（データセットが構築できても計算環境が厳しいが…）