10 个版本
0.1.9 | 2024年7月4日 |
---|---|
0.1.8 | 2024年7月3日 |
0.1.7 | 2024年6月6日 |
0.1.6 | 2024年5月31日 |
0.1.4 | 2024年4月28日 |
在 机器学习 类别中排名 688
每月下载量 38
38KB
669 代码行
csep
余弦相似度嵌入打印
╭─── ╭────┬───────╮
│ ╰──╮ ├─ ╭───╯
╰───────╯ ╰── ╵
Csep(余弦相似度嵌入打印)类似于 Grep(全局正则表达式打印),它接收一个正则表达式并打印所有匹配的行。Csep 接收一个输入短语并打印所有与其相似的块。
该项目的目标是让用户能够像使用 grep 进行正则表达式搜索一样,通过命令行访问语义搜索。这不仅为任何类 Unix 系统提供了一种命令行语义搜索工具,而且还允许您在脚本和管道中使用它。如果您将其与命令行 llm 工具(如 chat-gipity 或 Ollama)结合使用,甚至可以在简单的 Unix 脚本中执行 RAG。
安装
您可以使用以下命令从该源安装 csep:
cargo install --path .
或者,您可以使用以下命令从 crates.io 拉取最新发布的版本:
cargo install csep
Ollama 客户端选项
如果您想使用 Ollama 客户端选项,您需要安装 ollama 并拉取默认的 all-minilm 模型,或者您想要使用的任何模型,因为 ollama 目前不支持像 llms 一样自动拉取嵌入模型的模型。
ollama pull all-minilm
对于每个嵌入,fastembed 实际上要慢得多,但由于向 ollama 发送请求的开销,对于大型目录,使用 fastembed 时,嵌入缓存构建得更快。
依赖关系
~36–54MB
~811K SLoC