Query of CC: Unearthing Large Scale Domain-Specific Knowledge from Public Corpora

Query of CC: Unearthing Large Scale Domain-Specific Knowledge from Public Corpora [104.8]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文参考訳（メタデータ） (Fri, 26 Jan 2024 03:38:23 GMT)
特定ドメインのデータを構築するための手法の提案。 Query Bootstrapping とData Retrievalからなり、前者でシードとなる検索を拡張、後者でBM25を用いて実際にデータを取得する。本件が想定するような大規模データだとBM25を使わざるを得ないのはそうだと思う。
コードは公開予定とのことだが、現時点ではリポジトリが見つからなかった。

コメントを残す

コメントを残す コメントをキャンセル