10 个版本

0.1.9 2024年7月4日
0.1.8 2024年7月3日
0.1.7 2024年6月6日
0.1.6 2024年5月31日
0.1.4 2024年4月28日

机器学习 类别中排名 688

每月下载量 38

GPL-2.0 许可证

38KB
669 代码行

csep

crates.io

余弦相似度嵌入打印

╭─── ╭────┬───────╮
│    ╰──╮ ├─  ╭───╯  
╰───────╯ ╰── ╵

Csep(余弦相似度嵌入打印)类似于 Grep(全局正则表达式打印),它接收一个正则表达式并打印所有匹配的行。Csep 接收一个输入短语并打印所有与其相似的块。

该项目的目标是让用户能够像使用 grep 进行正则表达式搜索一样,通过命令行访问语义搜索。这不仅为任何类 Unix 系统提供了一种命令行语义搜索工具,而且还允许您在脚本和管道中使用它。如果您将其与命令行 llm 工具(如 chat-gipityOllama)结合使用,甚至可以在简单的 Unix 脚本中执行 RAG

安装

您可以使用以下命令从该源安装 csep:

cargo install --path .

或者,您可以使用以下命令从 crates.io 拉取最新发布的版本:

cargo install csep

Ollama 客户端选项

如果您想使用 Ollama 客户端选项,您需要安装 ollama 并拉取默认的 all-minilm 模型,或者您想要使用的任何模型,因为 ollama 目前不支持像 llms 一样自动拉取嵌入模型的模型。

ollama pull all-minilm

对于每个嵌入,fastembed 实际上要慢得多,但由于向 ollama 发送请求的开销,对于大型目录,使用 fastembed 时,嵌入缓存构建得更快。

依赖关系

~36–54MB
~811K SLoC