#index #tantivy #command-line #common-crawl #cli

nightly app tantivy_warc_indexer

从common crawl warc.wet文件构建tantivy索引

1 个不稳定版本

0.2.0 2021年8月19日

#45#tantivy

CC-BY-SA-4.0

13KB
200 代码行

tantivy_warc_indexer

tantivy_warc_indexer从common crawl warc.wet文件构建tantivy索引

构建

安装rust(例如通过rustup)。

make

使用方法

./target/release/tantivy_warc_indexer --help
WARC Indexer

Usage:
  warc_parser [-t <threads>] [--from <from>] [--to <to>] <index> <warc_dir>
  warc_parser (-h | --help)

Options:
  -h --help      Show this help
  -t <threads>   number of threads to use, default 4
  --from <from>  skip files until from
  --to <to>      skip files after to

运行

例如,创建一个空索引的目录为 tantivy-cli,<warc_dir> 是包含 common crawl warc.wet 或 warc.wet.gz 文件的路径。根据您的系统,这可能需要几天或几周。

./target/release/tantivy_warc_indexer ../common_crawl_tantivy_index ../wet

创建索引

mkdir ../common_crawl_tantivy_index
cp template/meta.json ../common_crawl_tantivy_index/

Best Andreas

依赖项

~23MB
~374K SLoC