#llm #openai #anthropic #openai-api #llama-cpp #gguf #artificial-intelligence

bin+lib llm_client

LLMs:结构化文本、决策、分类和基准。一次编写,即可在本地或API模型上运行的友好界面。

1 个不稳定版本

0.0.2 2024年5月28日

#350异步

MIT 许可证

235KB
5K SLoC

Contributors Forks Stargazers Issues MIT License

结构化文本、决策和基准。一次编写,即可在本地或API模型上运行的友好界面。

LLMs 不是聊天机器人;它们是信息套利机器,提示是数据库查询。

  • 结构化生成的文本输出,根据新颖的输入做出决策,并对数据进行分类。
  • 可能最简单的界面,用于部署和测试到各种 LLM 后端的相同逻辑。
  • 以本地和嵌入式模型为起点。旨在与您的业务逻辑一起构建和运行。无需独立服务器。

LLMs 作为决策者 🚦

  • 以前需要数十、数百或数千条 if statements 才能完成特定需求,现在可以通过几行代码跨新颖的输入完成。

  • llm_client 使用可能是一种新颖的 LLM 决策过程。首先,我们让 LLM 以普通英语“论证”一个答案。这允许 LLM 通过输出达到答案所需的令牌流来“思考”。然后我们取那个“论证”,并提示 LLM 解析它以获取答案。然后我们再次执行 N 次,其中 N 是 best_of_n_votes,并动态调整温度以确保准确的共识。

    let res: bool = llm_client.decider().boolean()
        .system_content("Does this email subject indicate that the email is spam?")
        .user_content("You'll never believe these low, low prices 💲💲💲!!!")
        .run().await?;
    assert_eq!(res, true);

    let res: u16 = llm_client.decider().integer()
        .system_content("How many times is the word 'llm' mentioned in these comments?")
        .user_content(hacker_news_comment_section)
        .run().await?;
    assert!(res > 1);

    let res: String = llm_client.decider().custom()
        .system_content("Based on this resume, what is the users first name?")
        .user_content(shelby_resume)
        .add_choice("shelby")
        .add_choice("jack")
        .add_choice("camacho")
        .add_choice("john")
        .run().await?;
    assert!(res != "shelby");

结构化文本 📝

  • “有些人面对问题时会想‘我知道,我会用正则表达式。’现在他们有两个问题。’使用正则表达式来解析和结构化 LLM 的输出,使这个古老的笑话翻倍。”

  • llm_client 通过 logit_bias 和语法实现结构化文本。在两者中,语法是最强大的,允许对文本生成进行非常细粒度的控制。 logit_bias,由于支持范围较广,因此不太有用,因为它依赖于调整单个令牌的概率。

    let res: Vec<String> = llm_client.text().grammar_list()
        .system_content("ELI5 each topic in this text.")
        .user_content(wikipedia_article)
        .max_items(5)
        .min_items(3)
        .run().await?;
    assert_eq!(res.len() > 3);

    let res: String = llm_client.text().grammar_text()
        .system_content("Summarize this mathematical funtion in plain english. Do not use notation.")
        .user_content(wikipedia_article)
        .restrict_extended_punctuation()
        .run().await?;
    assert!(!res.contains('('));
    assert!(!res.contains('['));

    let res: String = llm_client.text().logit_bias_text()
        .system_content("Summarize this article")
        .user_content(wikipedia_article)
        .add_logit_bias_from_word("delve", -100.0);
        .run().await?;
    assert!(!res.contains("delve"));

LLM -> LLMs 🤹

  • 跨多个 LLM 的相同代码。

  • 这使得跨多个 LLM 的基准测试变得非常容易。查看 src/bechmark 以获取示例。

    pub async fn chatbot(llm_client: &LlmClient, user_input: &str) -> Result<String> {
        llm_client.text().basic_text()
            .system_content("You're a kind robot.")
            .user_content(user_input)
            .temperature(0.5)
            .max_tokens(2)
            .run().await
    }

    let llm_client = LlmClient::llama_backend()
        .mistral_7b_instruct()
        .init()
        .await?;
    assert_eq!(chatbot(&llm_client, "What is the meaning of life?").await?, "42")

    let llm_client = LlmClient::llama_backend()
        .model_url("https://hugging-face.cn/your_cool_model_Q5_K.gguf")
        .init()
        .await?;
    assert_eq!(chatbot(&llm_client, "What is the meaning of life?").await?, "42")

    let llm_client = LlmClient::openai_backend().gpt_4_o().init()?;
    assert_eq!(chatbot(&llm_client, "What is the meaning of life?").await?, "42")

    let llm_client = LlmClient::anthropic_backend().claude_3_opus().init()?;
    assert_eq!(chatbot(&llm_client, "What is the meaning of life?").await?, "42")

最小示例

use llm_client::LlmClient;

// Setting available_vram will load the largest quantized model that can fit the given vram.
let llm_client = LlmClient::llama_backend().available_vram(16).llama_3_8b_instruct().init().await?;

let res = llm_client.text().basic_text().user_content("Hello world?").run().await?;

assert_eq!(res, "Hello world!");

示例

指南

安装

llm_client 目前依赖于 llama.cpp。由于它是一个 C++ 项目,因此它并未包含在 crate 中。在不久的将来,llm_client 将支持 mistral-rs,这是一个在 Candle 中构建的推理后端,支持诸如 ISQ 等众多特性。一旦集成完成,llm_client 将是纯 Rust 代码,并可以像 crate 一样安装。

如果仅使用 OpenAi 和/或 Anthropic

  • 添加到 cargo.toml
[dependencies]
llm_client = "*"
  • 添加 API 密钥
    • OPENAI_API_KEY=<key> 和/或 ANTHROPIC_API_KEY=<key> 添加到您的 .env 文件中
    • 或在后端构建函数中使用 api_key 函数

如果使用 Llama.cpp 和/或外部 API

  • 克隆仓库
git clone --recursive https://github.com/ShelbyJenkins/llm_client.git
cd llm_client
  • 添加到 cargo.toml
[dependencies]
llm_client = {path="../llm_client"}
  • 可选:从 llm_client/.devcontainer/devcontainer.json 构建 devcontainer。这将构建一个包含 nvidia 依赖项的 dev container。

  • 构建 llama.cpp (这取决于您的硬件。请在此处查看完整说明)

    // Example nvidia gpu build
    cd llm_client/src/llm_backends/llama_cpp/llama_cpp
    make LLAMA_CUDA=1
    

路线图

  • 从 llama.cpp 迁移到 mistral-rs。这将极大地简化作为嵌入式 crate 的使用。它目前是一个 WIP。也可能最终结果是 llama.cpp 作为后备选项放在功能标志之后。
  • 额外的决策者:多个响应决策者。
  • 分类器、摘要器、map reduce 代理。
  • 扩展语法支持:自定义语法、JSON 支持。
  • 更多外部 API,例如 Google、AWS、Groq 以及 LLM 聚合器和路由器。
  • 梦想路线图项目:用于单个提示符的多个 LLM 输出的网络界面。因为我们已经用 Claude 和 ChatGPT 做了这件事,不是吗?

依赖关系

async-openai 用于与 OpenAI API 交互。用于 Llama.cpp 服务器的是 async-openai crate 的修改版本。如果您只需要 OpenAI API 接口,我建议使用 async-openai crate。

clust 用于与 Anthropic API 交互。如果您只需要 Anthropic API 接口,我建议使用 clust crate。

llm_utils 是从 llm_client 中分离出来的一个同级 crate。如果您只需要提示、标记化、模型加载等,我建议单独使用 llm_utils crate。

贡献

这是我第一个 Rust crate。所有贡献或反馈都热烈欢迎!

许可协议

在 MIT 许可协议下分发。有关更多信息,请参阅 LICENSE.txt

联系

Shelby Jenkins - 这里或领英

依赖关系

~52–69MB
~1M SLoC