#ai #llm #rag #openai #language-model #parallel-processing #data-processing

swiftide-integrations

专为AI应用设计的闪电般的快速流式处理管道库

4个版本 (2个破坏性版本)

0.9.0 2024年8月15日
0.8.0 2024年8月12日
0.7.1 2024年8月4日
0.7.0 2024年7月28日

#292 in 异步

Download history 38/week @ 2024-07-22 136/week @ 2024-07-29 90/week @ 2024-08-05 257/week @ 2024-08-12

每月521次下载
swiftide中使用

MIT许可证

220KB
4.5K SLoC

目录

CI Coverage Status Crate Badge Docs Badge Contributors Stargazers MIT License LinkedIn


Logo

Swiftide

专为检索增强生成(RAG)而设计的快速流式索引和查询库,使用Rust编写
在swiftide.rs上了解更多 »

API文档 · 报告错误 · 请求功能 · Discord

关于项目

Swiftide是一个数据索引、处理和查询库,针对大型语言模型(LLM)构建的应用程序而定制。当构建使用大型语言模型(LLM)的应用程序时,这些LLM需要访问外部资源。数据需要转换、丰富、分割、嵌入和持久化。然后可以通过检索索引数据并生成答案来增强查询。它使用并行、异步流构建,速度极快。

使用Swiftide,您可以仅用几行代码将您的AI应用从想法构建到生产。

RAG

在使用其他基于Python的工具时,性能、稳定性和易用性方面出现了挫折。因此,Swiftide诞生了。索引性能从几分钟缩短到几秒。

bosun.ai项目的一部分。一个即将推出的自主代码改进平台。

我们喜欢反馈:项目想法、建议和投诉都非常欢迎。请随意在discord上打开问题或联系我们。

[警告] Swiftide处于积极开发中,在朝着1.0版本迈进的过程中可能会有破坏性更改。这里的文档可能无法涵盖所有功能,尽管我们已尽力,但可能有些过时。请期待错误。我们建议您始终关注我们的githubAPI文档。如果您发现了问题或有任何类型的反馈,我们很高兴在问题中听到您的意见。

(回到顶部)

博客上最新的更新 🔥

(回到顶部)

示例

indexing::Pipeline::from_loader(FileLoader::new(".").with_extensions(&["rs"]))
        .with_default_llm_client(openai_client.clone())
        .filter_cached(Redis::try_from_url(
            redis_url,
            "swiftide-examples",
        )?)
        .then_chunk(ChunkCode::try_for_language_and_chunk_size(
            "rust",
            10..2048,
        )?)
        .then(MetadataQACode::default())
        .then(move |node| my_own_thing(node))
        .then_in_batch(10, Embed::new(openai_client.clone()))
        .then_store_with(
            Qdrant::builder()
                .batch_size(50)
                .vector_size(1536)
                .build()?,
        )
        .run()
        .await?;

更多示例请访问 /examples

(回到顶部)

愿景

我们的目标是创建一个快速、可扩展的数据索引和查询平台,以促进自动化的LLM应用程序的开发,并提供易于使用和扩展的API。

(回到顶部)

功能

  • 快速、模块化的异步并行处理流索引管道
  • 实验性查询管道
  • 多种加载器、转换器、语义分块器、嵌入器等
  • 通过扩展简单的特性或使用闭包来提供自己的转换器
  • 分割和合并管道
  • 用于提示的Jinja-like模板
  • 存储到多个后端
  • 与OpenAI、Groq、Redis、Qdrant、Ollama、FastEmbed-rs和Treesitter的集成
  • 支持稀疏向量以实现混合搜索
  • tracing 支持日志和跟踪,请参阅 /examples 和 tracing crate 获取更多信息。

详细说明

功能 详细信息
支持的大语言模型提供商 OpenAI(和Azure)- 所有模型和嵌入
AWS Bedrock - Anthropic和Titan
Groq - 所有模型
Ollama - 所有模型
加载数据 文件
抓取
其他管道和流
转换器和元数据生成 生成文本和代码的问答对(Hyde)
通过LLM生成摘要、标题和查询
使用tree-sitter提取定义和引用
分割和分块 Markdown
代码(带有tree-sitter)
存储 Qdrant
Redis

(回到顶部)

入门

先决条件

请确保已安装Rust工具链。 rustup 是推荐的方法。

要使用OpenAI,需要API密钥。请注意,默认情况下,async_openai 使用 OPENAI_API_KEY 环境变量。

其他集成将需要相应安装。

安装

  1. 设置新的Rust项目

  2. 添加swiftide

    cargo add swiftide
    
  3. 在您的 Cargo.toml 中启用您希望使用的集成功能

  4. 编写管道(请参阅我们的示例和文档)

(回到顶部)

使用和概念

在构建流之前,您需要启用并配置所需的所有集成。请参阅 /examples。

流从一个发出节点的加载器开始。例如,使用Fileloader,每个文件都是一个节点。

然后您可以切片、切块、增强和过滤节点。管道中的每种不同类型的步骤都需要不同的特性。这允许扩展。

节点有路径、分块和元数据。目前,在分块时元数据会被复制,并且在使用OpenAIEmbed转换器时始终会嵌入。

  • from_loader (impl Loader) 是流的起点,创建并发送节点
  • filter_cached (impl NodeCache) 过滤缓存节点
  • then (impl Transformer) 转换节点并将其放在流上
  • then_in_batch (impl BatchTransformer) 转换多个节点并将其放在流上
  • then_chunk (impl ChunkerTransformer) 转换单个节点并发送多个节点
  • then_store_with (impl Storage) 将节点存储在存储后端,这可以进行链式操作。

此外,还实现了几个通用转换器。它们接受 SimplePromptEmbedModel 的实现者来完成它们的任务。

[!NOTE] 默认情况下没有启用集成,因为一些集成代码较重。要么选择您需要的集成,要么使用 "all" 功能标志。

[!WARNING] 由于性能原因,在添加元数据之前进行分块会导致 OpenAI 上出现速率限制错误,特别是在像 3.5-turbo 这样的快速模型中。请注意。

有关更多示例,请参阅 /examples 和 文档

(回到顶部)

路线图

查看 公开问题 获取提议的功能(和已知问题)的完整列表。

(回到顶部)

社区

如果您想更多地参与 Swiftide,有问题或想要聊天,您可以在 discord 上找到我们。

(回到顶部)

贡献

Swiftide 处于非常早期的阶段,我们意识到我们缺乏更广泛社区的功能。贡献非常欢迎。🎉

如果您有一个非常好的想法,请 fork 仓库并创建一个 pull request。您也可以简单地打开一个带有 "enhancement" 标签的问题。别忘了给项目点个赞!再次感谢!

如果您只想贡献(祝福您!),请参阅 我们的问题

  1. 分支项目
  2. 创建您的功能分支 (git checkout -b feature/AmazingFeature)
  3. 提交您的更改 (git commit -m 'feat: Add some AmazingFeature')
  4. 将更改推送到分支 (git push origin feature/AmazingFeature)
  5. 打开一个 Pull Request

有关更多信息,请参阅 CONTRIBUTING

(回到顶部)

许可证

在 MIT 许可下分发。有关更多信息,请参阅 LICENSE

(回到顶部)

依赖关系

~13–47MB
~1M SLoC