4个版本

0.1.1	2023年5月8日
0.1.0-rc4	2023年5月8日
0.1.0-rc3	2023年5月7日

888在机器学习类别中的排名

每月下载量178

MIT/Apache

59KB
802 代码行

llm

A llama riding a crab, AI-generated

图片由@darthdeus提供，使用Stable Diffusion生成

llm是一个Rust生态系统库，用于在大型语言模型上运行推理，灵感来自llama.cpp。

主要的crate是llm，它封装了llm-base和相关模型crate。

在llm的基础上，还有一个CLI应用程序llm-cli，它提供了一个方便的接口来运行支持模型的推理。此CLI可从最新GitHub版本中获得。

它由ggml张量库提供支持，旨在将Rust的健壮性和易用性带给大型语言模型的世界。

目前支持以下模型

GPT-2
GPT-J
LLaMA: LLaMA、Alpaca、Vicuna、Koala、GPT4All v1、GPT4-X、Wizard
GPT-NeoX: GPT-NeoX、StableLM、Dolly v2（部分，不是相同的tensor名称？）
BLOOM: BLOOMZ

入门指南

请确保您已安装Rust 1.65.0或更高版本和C工具链[^1]。

llm是一个Rust库，重新导出llm-base和相关模型crate（例如bloom、gpt2、llama）。

llm-cli（二进制名称llm）是一个基本应用程序，它提供了库的CLI接口。

注意：为了获得最佳效果，请确保以发布模式构建和运行。调试构建将会非常慢。

使用 `cargo` 构建

运行

cargo install --git https://github.com/rustformers/llm llm-cli

将 llm 安装到您的 Cargo bin 目录中，这可能是 rustup 添加到您的 PATH 的。

然后可以通过 llm 运行 CLI 应用程序。

从仓库构建

克隆仓库，然后使用以下命令构建：

git clone --recurse-submodules git@github.com:rustformers/llm.git
cargo build --release

生成的二进制文件将在 target/release/llm[.exe]。

也可以通过 Cargo 直接运行，使用

cargo run --release -- <ARGS>

这对于开发很有用。

获取模型

GGML 文件很容易获取。有关已测试的模型列表，请参阅已知良好模型。

本项目不支持某些较旧的 GGML 格式，但目标是保持与上游 GGML 项目的功能一致性。有关加载模型的问题或请求对受支持的 GGML 模型类型的支持，请提交 Issue。

从 Hugging Face

Hugging Face 🤗 是开源机器学习的领导者，并托管了数百个 GGML 模型。在 Hugging Face 🤗 上搜索 GGML 模型。

r/LocalLLaMA

这个 Reddit 社区维护了与 GGML 模型相关的维基，包括获取 GGML 模型（大部分来自 Hugging Face 🤗）的链接列表。

LLaMA 原始权重

目前，获取原始权重的唯一合法来源是此仓库。

获取权重后，需要将它们转换为与 ggml 兼容的格式。为此，请遵循以下步骤

警告

要运行 Python 脚本，需要 3.9 或 3.10 版本的 Python。撰写本文时，3.11 版本不受支持。

# Convert the model to f16 ggml format
python3 scripts/convert-pth-to-ggml.py /path/to/your/models/7B/ 1

# Quantize the model to 4-bit ggml format
cargo run --release llama quantize /path/to/your/models/7B/ggml-model-f16.bin /path/to/your/models/7B/ggml-model-q4_0.bin q4_0

将来，我们希望提供一种更简化的模型转换方式。

注意

llama.cpp 仓库有关于如何获取和运行特定模型的其他信息。

运行

例如，尝试以下提示

llm llama infer -m <path>/ggml-model-q4_0.bin -p "Tell me how cool the Rust programming language is:"

一些其他尝试事项

使用 --help 查看可用选项列表。

如果您有 alpaca-lora 权重，请尝试 repl 模式！

llm llama repl -m <path>/ggml-alpaca-7b-q4.bin -f examples/alpaca_prompt.txt

会话可以加载（--load-session）或保存到文件（--save-session）。要自动加载和保存相同的会话，请使用 --persist-session。这也可以用于缓存提示以减少加载时间

[^1]: 编译 ggml 需要一个现代 C 工具链。通常不需要 C++ 工具链。

Docker

# To build (This will take some time, go grab some coffee):
docker build -t llm .

# To run with prompt:
docker run --rm --name llm -it -v ${PWD}/data:/data -v ${PWD}/examples:/examples llm llama infer -m data/gpt4all-lora-quantized-ggml.bin -p "Tell me how cool the Rust programming language is:"

# To run with prompt file and repl (will wait for user input):
docker run --rm --name llm -it -v ${PWD}/data:/data -v ${PWD}/examples:/examples llm llama repl -m data/gpt4all-lora-quantized-ggml.bin -f examples/alpaca_prompt.txt

Q&A

你为什么这样做？

这不是我的选择。费里斯出现在我的梦中，并要求我以神圣的螃蟹的名义重写这篇文档。

说正经的。

快点吧！我不想陷入争吵。你知道的，某个某个内存某个某个货载很棒，别让我说，大家都已经知道了。

我坚持。

天哪！好吧。在看到llama.cpp的巨大潜力后，我首先想到的是将其转变为可以嵌入我项目的库。我开始深入代码，意识到繁重的工作是由ggml（一个C库，易于绑定到Rust）完成的，整个项目只有大约2k行C++代码（不容易绑定）。在几次（失败的）尝试将HTTP服务器构建到工具中后，我意识到如果只是将代码移植到Rust（我在那里更舒服），我会更有生产力。

这是真正的理由吗？

哈哈。当然不是。我只是喜欢收集想象中的互联网积分，以小星星的形式，人们似乎在我开始那些毫无意义的Rust重写X的任务时给予我。

这与`llama.cpp`有何不同？

这是llama.cpp的重新实现，它与它除了ggml外不共享任何代码。这样做是出于各种原因

llama.cpp需要C++编译器，这可能会在交叉编译到更专业的平台时造成问题。这样的平台的一个例子是WebAssembly，它可能需要非标准的编译器SDK。
Rust在开发和开源方面更容易使用；它为编写“大型代码”提供了更好的工具，许多其他作者也可以从中受益。此外，我们可以轻松地受益于更大的Rust生态系统。
我们希望将ggml作为一个可选后端（参见这个问题）。

总的来说，我们希望构建一个与任何其他Rust crate一样易于使用和部署的模型推理解决方案。

哪些应用程序和库使用`llm`？

应用程序

llmcord：使用llm生成消息的Discord机器人。

库

llm-chain：正在进行的工作，参见这个PR。

依赖关系

~18–31MB
~389K SLoC