#索引文件 #文件格式 #Lucene #交换 #搜索引擎 #挑战 #PISA

程序+库 ciff

作为开源 IR 可复现性挑战(OSIRRC)计划的一部分定义的反向索引交换格式

6 个版本

0.3.1 2022 年 8 月 9 日
0.3.0 2022 年 3 月 15 日
0.2.1 2022 年 3 月 7 日
0.1.1 2020 年 4 月 21 日

#1300解析实现

Apache-2.0

68KB
1.5K SLoC

通用索引文件格式 (CIFF)

Rust License crates.io API

什么是 CIFF?

通用索引文件格式 CIFF 是开源 IR 可复现性挑战(OSIRRC)计划的一部分定义的反向索引交换格式。其主要思想是允许通过 Anserini 将索引从 Lucene 中导出,然后可以被其他搜索引擎摄取。此仓库包含将 CIFF 读取为 PISA 可用于构建(然后搜索)索引的格式的必要代码。

版本

我们目前提供一个用于将 CIFF 数据转换为 PISA 标准索引 的 Rust 二进制文件,以及将 PISA 标准索引转换回 CIFF 的功能。这意味着 PISA 可以生成其他支持 CIFF 的系统(反之亦然)可以消费的索引。

从 AUR 安装

该软件包可在 Arch 用户仓库 中找到。如果您使用的是基于 Arch 的系统,可以通过运行以下命令安装它

# Replace yay with the helper of your choice.
yay -S ciff-pisa

从 crates.io 安装

请注意,以下描述的安装方法 不是 系统范围的。例如,在 Linux 上,工具通常位于 $HOME/.cargo/bin 目录中。要使用命令行工具,请确保使用绝对路径或更新您的 PATH 变量以包括 $HOME/.cargo/bin 目录。

库和工具也可在 crates.io 中找到,因此您可以通过运行以下命令在本地仓库中安装二进制文件

cargo install ciff

从源代码安装

本地构建

只需运行 cargo build --release 来构建二进制文件。

要将 CIFF blob 转换为 PISA 正则: ./target/release/ciff2pisa

要将 PISA 正则转换为 CIFF blob: ./target/release/pisa2ciff

安装

您还可以将二进制文件安装到您的本地 cargo 仓库

cargo install --path .

或者如果您再次安装相同版本

cargo install --path . --force

用作 Cargo 依赖项

如果您有兴趣在自己的 Rust 库中使用库组件,只需将其定义为 Cargo.toml 文件中的依赖项即可

[dependencies]
ciff = "0.1"

库 API 文档

API 文档可在 docs.rs 上找到。

依赖项

~9–19MB
~265K SLoC