1 个不稳定版本
0.0.2 | 2024年5月28日 |
---|
#350 在 异步
235KB
5K SLoC
结构化文本、决策和基准。一次编写,即可在本地或API模型上运行的友好界面。
LLMs 不是聊天机器人;它们是信息套利机器,提示是数据库查询。
- 结构化生成的文本输出,根据新颖的输入做出决策,并对数据进行分类。
- 可能最简单的界面,用于部署和测试到各种 LLM 后端的相同逻辑。
- 以本地和嵌入式模型为起点。旨在与您的业务逻辑一起构建和运行。无需独立服务器。
LLMs 作为决策者 🚦
-
以前需要数十、数百或数千条
if statements
才能完成特定需求,现在可以通过几行代码跨新颖的输入完成。 -
llm_client 使用可能是一种新颖的 LLM 决策过程。首先,我们让 LLM 以普通英语“论证”一个答案。这允许 LLM 通过输出达到答案所需的令牌流来“思考”。然后我们取那个“论证”,并提示 LLM 解析它以获取答案。然后我们再次执行 N 次,其中 N 是
best_of_n_votes
,并动态调整温度以确保准确的共识。
let res: bool = llm_client.decider().boolean()
.system_content("Does this email subject indicate that the email is spam?")
.user_content("You'll never believe these low, low prices 💲💲💲!!!")
.run().await?;
assert_eq!(res, true);
let res: u16 = llm_client.decider().integer()
.system_content("How many times is the word 'llm' mentioned in these comments?")
.user_content(hacker_news_comment_section)
.run().await?;
assert!(res > 1);
let res: String = llm_client.decider().custom()
.system_content("Based on this resume, what is the users first name?")
.user_content(shelby_resume)
.add_choice("shelby")
.add_choice("jack")
.add_choice("camacho")
.add_choice("john")
.run().await?;
assert!(res != "shelby");
结构化文本 📝
-
“有些人面对问题时会想‘我知道,我会用正则表达式。’现在他们有两个问题。’使用正则表达式来解析和结构化 LLM 的输出,使这个古老的笑话翻倍。”
-
llm_client 通过 logit_bias 和语法实现结构化文本。在两者中,语法是最强大的,允许对文本生成进行非常细粒度的控制。 logit_bias,由于支持范围较广,因此不太有用,因为它依赖于调整单个令牌的概率。
let res: Vec<String> = llm_client.text().grammar_list()
.system_content("ELI5 each topic in this text.")
.user_content(wikipedia_article)
.max_items(5)
.min_items(3)
.run().await?;
assert_eq!(res.len() > 3);
let res: String = llm_client.text().grammar_text()
.system_content("Summarize this mathematical funtion in plain english. Do not use notation.")
.user_content(wikipedia_article)
.restrict_extended_punctuation()
.run().await?;
assert!(!res.contains('('));
assert!(!res.contains('['));
let res: String = llm_client.text().logit_bias_text()
.system_content("Summarize this article")
.user_content(wikipedia_article)
.add_logit_bias_from_word("delve", -100.0);
.run().await?;
assert!(!res.contains("delve"));
LLM -> LLMs 🤹
-
跨多个 LLM 的相同代码。
-
这使得跨多个 LLM 的基准测试变得非常容易。查看 src/bechmark 以获取示例。
pub async fn chatbot(llm_client: &LlmClient, user_input: &str) -> Result<String> {
llm_client.text().basic_text()
.system_content("You're a kind robot.")
.user_content(user_input)
.temperature(0.5)
.max_tokens(2)
.run().await
}
let llm_client = LlmClient::llama_backend()
.mistral_7b_instruct()
.init()
.await?;
assert_eq!(chatbot(&llm_client, "What is the meaning of life?").await?, "42")
let llm_client = LlmClient::llama_backend()
.model_url("https://hugging-face.cn/your_cool_model_Q5_K.gguf")
.init()
.await?;
assert_eq!(chatbot(&llm_client, "What is the meaning of life?").await?, "42")
let llm_client = LlmClient::openai_backend().gpt_4_o().init()?;
assert_eq!(chatbot(&llm_client, "What is the meaning of life?").await?, "42")
let llm_client = LlmClient::anthropic_backend().claude_3_opus().init()?;
assert_eq!(chatbot(&llm_client, "What is the meaning of life?").await?, "42")
最小示例
use llm_client::LlmClient;
// Setting available_vram will load the largest quantized model that can fit the given vram.
let llm_client = LlmClient::llama_backend().available_vram(16).llama_3_8b_instruct().init().await?;
let res = llm_client.text().basic_text().user_content("Hello world?").run().await?;
assert_eq!(res, "Hello world!");
示例
指南
安装
llm_client 目前依赖于 llama.cpp。由于它是一个 C++ 项目,因此它并未包含在 crate 中。在不久的将来,llm_client 将支持 mistral-rs,这是一个在 Candle 中构建的推理后端,支持诸如 ISQ 等众多特性。一旦集成完成,llm_client 将是纯 Rust 代码,并可以像 crate 一样安装。
如果仅使用 OpenAi 和/或 Anthropic
- 添加到 cargo.toml
[dependencies]
llm_client = "*"
- 添加 API 密钥
- 将
OPENAI_API_KEY=<key>
和/或ANTHROPIC_API_KEY=<key>
添加到您的.env
文件中 - 或在后端构建函数中使用
api_key
函数
- 将
如果使用 Llama.cpp 和/或外部 API
- 克隆仓库
git clone --recursive https://github.com/ShelbyJenkins/llm_client.git
cd llm_client
- 添加到 cargo.toml
[dependencies]
llm_client = {path="../llm_client"}
-
可选:从
llm_client/.devcontainer/devcontainer.json
构建 devcontainer。这将构建一个包含 nvidia 依赖项的 dev container。 -
构建 llama.cpp (这取决于您的硬件。请在此处查看完整说明)
// Example nvidia gpu build cd llm_client/src/llm_backends/llama_cpp/llama_cpp make LLAMA_CUDA=1
路线图
- 从 llama.cpp 迁移到 mistral-rs。这将极大地简化作为嵌入式 crate 的使用。它目前是一个 WIP。也可能最终结果是 llama.cpp 作为后备选项放在功能标志之后。
- 额外的决策者:多个响应决策者。
- 分类器、摘要器、map reduce 代理。
- 扩展语法支持:自定义语法、JSON 支持。
- 更多外部 API,例如 Google、AWS、Groq 以及 LLM 聚合器和路由器。
- 梦想路线图项目:用于单个提示符的多个 LLM 输出的网络界面。因为我们已经用 Claude 和 ChatGPT 做了这件事,不是吗?
依赖关系
async-openai 用于与 OpenAI API 交互。用于 Llama.cpp 服务器的是 async-openai crate 的修改版本。如果您只需要 OpenAI API 接口,我建议使用 async-openai crate。
clust 用于与 Anthropic API 交互。如果您只需要 Anthropic API 接口,我建议使用 clust crate。
llm_utils 是从 llm_client 中分离出来的一个同级 crate。如果您只需要提示、标记化、模型加载等,我建议单独使用 llm_utils crate。
贡献
这是我第一个 Rust crate。所有贡献或反馈都热烈欢迎!
许可协议
在 MIT 许可协议下分发。有关更多信息,请参阅 LICENSE.txt
。
联系
Shelby Jenkins - 这里或领英
依赖关系
~52–69MB
~1M SLoC