- Query of CC: Unearthing Large Scale Domain-Specific Knowledge from Public Corpora [104.8]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。 この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。 特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文 参考訳(メタデータ) (Fri, 26 Jan 2024 03:38:23 GMT) - 特定ドメインのデータを構築するための手法の提案。 Query Bootstrapping とData Retrievalからなり、前者でシードとなる検索を拡張、後者でBM25を用いて実際にデータを取得する。本件が想定するような大規模データだとBM25を使わざるを得ないのはそうだと思う。
- コードは公開予定とのことだが、現時点ではリポジトリが見つからなかった。