Query of CC: Unearthing Large Scale Domain-Specific Knowledge from Public Corpora 

  • Query of CC: Unearthing Large Scale Domain-Specific Knowledge from Public Corpora [104.8]
    大規模言語モデルに基づく効率的なデータ収集手法を提案する。 この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。 特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
    論文  参考訳(メタデータ)   (Fri, 26 Jan 2024 03:38:23 GMT)
  • 特定ドメインのデータを構築するための手法の提案。 Query Bootstrapping とData Retrievalからなり、前者でシードとなる検索を拡張、後者でBM25を用いて実際にデータを取得する。本件が想定するような大規模データだとBM25を使わざるを得ないのはそうだと思う。
  • コードは公開予定とのことだが、現時点ではリポジトリが見つからなかった。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です