- Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index [124.7]
Infini-gram miniはペタバイトレベルのテキストコーパスを検索可能にするスケーラブルなシステムである。 私たちは128コアのCPUノードで、50日間で46TBのインターネットテキストをインデックスします。 Infini-gram miniのベンチマーク汚染の大規模解析における重要な利用例を示す。
論文 参考訳(メタデータ) (Fri, 13 Jun 2025 21:13:57 GMT) - 大規模データのインデックス化に関する報告。このインデックスを用いて各種ベンチマークの汚染度を計算している(Benchmark Contamination Monitoring System – a Hugging Face Space by infini-gram-mini)。今までも指摘されていたことだが、信頼性に疑問がでてくるものもありそう。
- プロジェクトサイトはHome | infini-gram-mini、リポジトリはGitHub – xuhaoxh/infini-gram-mini