Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index

  • Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index [124.7]
    Infini-gram miniはペタバイトレベルのテキストコーパスを検索可能にするスケーラブルなシステムである。 私たちは128コアのCPUノードで、50日間で46TBのインターネットテキストをインデックスします。 Infini-gram miniのベンチマーク汚染の大規模解析における重要な利用例を示す。
    論文  参考訳(メタデータ)   (Fri, 13 Jun 2025 21:13:57 GMT)
  • 大規模データのインデックス化に関する報告。このインデックスを用いて各種ベンチマークの汚染度を計算している(Benchmark Contamination Monitoring System – a Hugging Face Space by infini-gram-mini)。今までも指摘されていたことだが、信頼性に疑問がでてくるものもありそう。
  • プロジェクトサイトはHome | infini-gram-mini、リポジトリはGitHub – xuhaoxh/infini-gram-mini

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です