1 个不稳定版本
0.2.0 | 2021年8月19日 |
---|
#45 在 #tantivy
13KB
200 代码行
tantivy_warc_indexer
tantivy_warc_indexer从common crawl warc.wet文件构建tantivy索引
构建
安装rust(例如通过rustup)。
make
使用方法
./target/release/tantivy_warc_indexer --help
WARC Indexer
Usage:
warc_parser [-t <threads>] [--from <from>] [--to <to>] <index> <warc_dir>
warc_parser (-h | --help)
Options:
-h --help Show this help
-t <threads> number of threads to use, default 4
--from <from> skip files until from
--to <to> skip files after to
运行
例如,创建一个空索引的目录为 tantivy-cli,<warc_dir> 是包含 common crawl warc.wet 或 warc.wet.gz 文件的路径。根据您的系统,这可能需要几天或几周。
./target/release/tantivy_warc_indexer ../common_crawl_tantivy_index ../wet
创建索引
mkdir ../common_crawl_tantivy_index
cp template/meta.json ../common_crawl_tantivy_index/
Best Andreas
依赖项
~23MB
~374K SLoC