#language-model #llama #ggml #inference #ai #running #ecosystem

llm

受 llama.cpp 启发的 Rust 生态系统,用于在大语言模型上运行推理

5 个版本

0.1.1 2023 年 5 月 8 日
0.1.0 2023 年 4 月 12 日
0.1.0-rc42023 年 5 月 8 日
0.1.0-rc32023 年 5 月 7 日
0.1.0-rc12023 年 5 月 4 日

#109 in 机器学习

Download history 68/week @ 2024-04-22 64/week @ 2024-04-29 109/week @ 2024-05-06 67/week @ 2024-05-13 75/week @ 2024-05-20 78/week @ 2024-05-27 62/week @ 2024-06-03 69/week @ 2024-06-10 62/week @ 2024-06-17 73/week @ 2024-06-24 39/week @ 2024-07-01 24/week @ 2024-07-08 70/week @ 2024-07-15 68/week @ 2024-07-22 71/week @ 2024-07-29 55/week @ 2024-08-05

每月下载量 269
6 包中使用 (5 直接)

MIT/Apache

150KB
2.5K SLoC

llm

A llama riding a crab, AI-generated

图片由 @darthdeus 提供,使用 Stable Diffusion 制作

Latest version MIT/Apache2 Discord

llm 是一个 Rust 生态系统,用于在大语言模型上运行推理,受 llama.cpp 启发。

主要的包是 llm 包,它封装了 llm-base 和支持的模型包。

llm 的基础上,有一个 CLI 应用程序,llm-cli,它提供了一个方便的接口来运行支持的模型的推理。这个 CLI 可从最新的 GitHub 发布版中获取。

它由 ggml 张量库驱动,旨在将 Rust 的健壮性和易用性带给大型语言模型的世界。

目前支持以下模型

  • GPT-2
  • GPT-J
  • LLaMA: LLaMA、Alpaca、Vicuna、Koala、GPT4All v1、GPT4-X、Wizard
  • GPT-NeoX: GPT-NeoX、StableLM、Dolly v2 (部分,张量名称不同?)
  • BLOOM: BLOOMZ

入门指南

请确保您已安装 Rust 1.65.0 或更高版本和 C 工具链[^1]。

llm 是一个 Rust 库,重新导出 llm-base 和模型包(例如 bloomgpt2 llama)。

llm-cli(二进制名称 llm)是一个提供库的CLI界面的基本应用程序。

注意:为了获得最佳效果,请确保以发布模式构建和运行。调试构建将会非常慢。

使用 cargo 构建

运行

cargo install --git https://github.com/rustformers/llm llm-cli

llm 安装到您的 Cargo bin 目录,该目录 rustup 很可能已添加到您的 PATH

然后可以通过 llm 运行CLI应用程序。

从仓库构建

克隆仓库,然后使用以下命令构建:

git clone --recurse-submodules [email protected]:rustformers/llm.git
cargo build --release

生成的二进制文件将在 target/release/llm[.exe]

它也可以通过Cargo直接运行,使用

cargo run --release -- <ARGS>

这对于开发很有用。

获取模型

GGML文件很容易获取。有关已测试模型列表,请参阅 已知良好模型

此项目不支持某些较旧的GGML格式,但目标是与上游GGML项目保持功能一致性。有关加载模型或请求支持 支持的GGML模型类型 的问题,请 打开一个问题

从Hugging Face

Hugging Face 🤗 是开源机器学习的领导者,托管了数百个GGML模型。 在Hugging Face 🤗上搜索GGML模型

r/LocalLLaMA

这个Reddit社区维护着一个与GGML模型相关的 维基,包括获取 GGML模型(大多数来自Hugging Face 🤗)的链接列表。

LLaMA原始权重

目前,获取原始权重的唯一合法来源是 此存储库

获取权重后,需要将它们转换为与ggml兼容的格式。为此,请按照以下步骤操作

警告

运行Python脚本需要Python 3.9或3.10版本。写作时,3.11不受支持。

# Convert the model to f16 ggml format
python3 scripts/convert-pth-to-ggml.py /path/to/your/models/7B/ 1

# Quantize the model to 4-bit ggml format
cargo run --release llama quantize /path/to/your/models/7B/ggml-model-f16.bin /path/to/your/models/7B/ggml-model-q4_0.bin q4_0

未来,我们希望提供 一种更简化的模型转换方式

注意

llama.cpp存储库 提供了有关获取和运行特定模型的额外信息。

运行

例如,尝试以下提示

llm llama infer -m <path>/ggml-model-q4_0.bin -p "Tell me how cool the Rust programming language is:"

尝试其他一些事情

  • 使用 --help 查看可用选项列表。

  • 如果您有 alpaca-lora 权重,尝试 repl 模式!

    llm llama repl -m <path>/ggml-alpaca-7b-q4.bin -f examples/alpaca_prompt.txt
    
  • 会话可以加载(--load-session)或保存到文件(--save-session)。要自动加载和保存相同的会话,请使用 --persist-session。这也可以用于缓存提示以减少加载时间。

[^1]: 编译 ggml 需要现代C工具链。不需要C++工具链。

Docker

# To build (This will take some time, go grab some coffee):
docker build -t llm .

# To run with prompt:
docker run --rm --name llm -it -v ${PWD}/data:/data -v ${PWD}/examples:/examples llm llama infer -m data/gpt4all-lora-quantized-ggml.bin -p "Tell me how cool the Rust programming language is:"

# To run with prompt file and repl (will wait for user input):
docker run --rm --name llm -it -v ${PWD}/data:/data -v ${PWD}/examples:/examples llm llama repl -m data/gpt4all-lora-quantized-ggml.bin -f examples/alpaca_prompt.txt

问答

你为什么这么做?

这不是我的选择。费里斯出现在我的梦中,要求我以神圣的螃蟹的名义重写这个。

说真的。

快点!我不想陷入一场口水战。你知道怎么回事,什么什么 内存 什么什么 cargo 很好,别让我说出来,大家都知道这一点。

我坚持。

哎呀!好吧。在看到 llama.cpp 的巨大潜力后,我首先想到的是将其转换为库嵌入到我的项目中,难度会多大。我开始深入研究代码,并意识到繁重的工作由 ggml(一个C库,易于绑定到Rust)完成,整个项目大约有2k行C++代码(不容易绑定)。在尝试将HTTP服务器构建到工具中失败了几次之后,我意识到如果我将代码移植到Rust会更有生产力,我在那里更舒服。

这是真正的理由吗?

哈哈。当然不是。我只是喜欢收集想象中的互联网积分,以星星的形式,似乎每次我开始进行毫无意义的重写X的任务时,人们都会给我。

这与 llama.cpp 有什么不同?

这是 llama.cpp 的重新实现,它与它之外没有任何代码共享,除了 ggml。这样做是出于各种原因

  • llama.cpp 需要一个C++编译器,这可能会在跨编译到更奇特的平台上造成问题。这样的平台的一个例子是WebAssembly,它可能需要一个非标准的编译器SDK。
  • Rust在开发和开源方面更容易使用;它为编写“大型代码”提供了更好的工具,许多其他作者也可以使用。此外,我们可以轻松地从中受益于更大的Rust生态系统。
  • 我们希望将 ggml 作为可选后端(见 这个问题)。

总的来说,我们希望构建一个与任何其他Rust crate一样易于使用和部署的模型推理解决方案。

哪些应用程序和库使用 llm

应用程序

  • llmcord:使用 llm 生成消息的Discord机器人。

依赖关系

~4.5–7MB
~103K SLoC