6个版本

0.1.1 2024年5月28日
0.1.0 2024年3月28日
0.0.4 2024年1月31日
0.0.3 2023年10月17日
0.0.2 2023年4月23日

#842图形API

Download history 1/week @ 2024-04-27 41/week @ 2024-05-11 8/week @ 2024-05-18 218/week @ 2024-05-25 24/week @ 2024-06-01 14/week @ 2024-06-08 12/week @ 2024-06-15 5/week @ 2024-06-22 155/week @ 2024-07-06 34/week @ 2024-07-13 57/week @ 2024-07-20 77/week @ 2024-07-27

323 每月下载次数
2 个crate中使用(通过 krnl

MIT/Apache

49KB
1K SLoC

DocsBadge build

krnl

安全、便携、高性能计算(GPGPU)内核。

autograph 开发。

  • 与CUDA和OpenCL具有类似功能。
  • 支持GPU和其他Vulkan 1.2兼容设备。
  • 通过 MoltenVK 支持 MacOS / iOS。
  • 内核以Rust语言内联编写。
    • 可以不使用unsafe实现简单的迭代模式。
    • 支持内联 SPIR-V 汇编。
    • 集成DebugPrintf,为panic生成回溯。
  • 主机上的缓冲区可以原生地作为Vecs和slices访问。

krnlc

krnl的内核编译器。

  • 基于 spirv-builder 构建。
  • 支持在Cargo.toml中定义的依赖项。
  • 使用 spirv-tools 进行验证和优化。
  • 编译为 "krnl-cache.rs",因此crate可以在稳定Rust上构建。

请参阅文档了解安装和使用说明。

安装

对于设备功能(内核),为您的平台安装 Vulkan

  • 对于开发,建议安装包含额外工具的 LunarG Vulkan SDK
    • vulkaninfo
    • 验证层
      • DebugPrintf
    • spirv-tools
      • 此工具由krnlc用于SPIR-V验证和优化。
        • krnlc默认构建时无需安装spirv-tools。

测试

  • 检查 vulkaninfo --summary 是否显示您的设备。
    • 实例版本应为 >= 1.2。
  • 或者,检查 cargo test --test integration_tests -- --exact none 是否显示您的设备。
    • 您可以使用以下命令运行所有测试:cargo test --all-features

入门指南

请参阅文档或使用以下命令在本地构建它们:cargo doc --all-features

示例

use krnl::{
    macros::module,
    anyhow::Result,
    device::Device,
    buffer::{Buffer, Slice, SliceMut},
};

#[module]
mod kernels {
    #[cfg(not(target_arch = "spirv"))]
    use krnl::krnl_core;
    use krnl_core::macros::kernel;

    pub fn saxpy_impl(alpha: f32, x: f32, y: &mut f32) {
        *y += alpha * x;
    }

    // Item kernels for iterator patterns.
    #[kernel]
    pub fn saxpy(alpha: f32, #[item] x: f32, #[item] y: &mut f32) {
        saxpy_impl(alpha, x, y);
    }

    // General purpose kernels like CUDA / OpenCL.
    #[kernel]
    pub fn saxpy_global(alpha: f32, #[global] x: Slice<f32>, #[global] y: UnsafeSlice<f32>) {
        use krnl_core::buffer::UnsafeIndex;

        let global_id = kernel.global_id();
        if global_id < x.len().min(y.len()) {
            saxpy_impl(alpha, x[global_id], unsafe { y.unsafe_index_mut(global_id) });
        }
    }
}

fn saxpy(alpha: f32, x: Slice<f32>, mut y: SliceMut<f32>) -> Result<()> {
    if let Some((x, y)) = x.as_host_slice().zip(y.as_host_slice_mut()) {
        x.iter()
            .copied()
            .zip(y.iter_mut())
            .for_each(|(x, y)| kernels::saxpy_impl(alpha, x, y));
        return Ok(());
    }
    if true {
        kernels::saxpy::builder()?
            .build(y.device())?
            .dispatch(alpha, x, y)
    } else {
        // or
        kernels::saxpy_global::builder()?
            .build(y.device())?
            .with_global_threads(y.len() as u32)
            .dispatch(alpha, x, y)
    }
}

fn main() -> Result<()> {
    let x = vec![1f32];
    let alpha = 2f32;
    let y = vec![0f32];
    let device = Device::builder().build().ok().unwrap_or(Device::host());
    let x = Buffer::from(x).into_device(device.clone())?;
    let mut y = Buffer::from(y).into_device(device.clone())?;
    saxpy(alpha, x.as_slice(), y.as_slice_mut())?;
    let y = y.into_vec()?;
    println!("{y:?}");
    Ok(())
}

性能

NVIDIA GeForce GTX 1060 with Max-Q Design

benches/compute-benches

alloc

krnl cuda ocl
1,000,000 316.90 ns (✅ 1.00x) 112.84 us (❌ 356.06x slower) 495.45 ns (❌ 1.56x slower)
10,000,000 318.15 ns (✅ 1.00x) 1.10 ms (❌ 3454.98x slower) 506.82 ns (❌ 1.59x slower)
64,000,000 317.56 ns (✅ 1.00x) 6.31 ms (❌ 19854.77x slower) 506.15 ns (❌ 1.59x slower)

upload

krnl cuda ocl
1,000,000 332.66 us (✅ 1.00x) 359.18 us (✅ 1.08x slower) 773.51 us (❌ 2.33x slower)
10,000,000 4.83 ms (✅ 1.00x) 3.69 ms (✅ 1.31x faster) 8.76 ms (❌ 1.81x slower)
64,000,000 25.24 ms (✅ 1.00x) 24.34 ms (✅ 1.04x faster) 57.02 ms (❌ 2.26x slower)

download

krnl cuda ocl
1,000,000 584.39 us (✅ 1.00x) 447.38 us (✅ 1.31x faster) 20.17 ms (❌ 34.52x slower)
10,000,000 5.67 ms (✅ 1.00x) 4.03 ms (✅ 1.41x faster) 20.15 ms (❌ 3.55x slower)
64,000,000 28.82 ms (✅ 1.00x) 25.57 ms (✅ 1.13x faster) 37.01 ms (❌ 1.28x slower)

zero

krnl cuda ocl
1,000,000 38.15 us (✅ 1.00x) 25.28 us (✅ 1.51x faster) 34.12 us (✅ 1.12倍更快)
10,000,000 250.90 us (✅ 1.00倍) 242.95 us (✅ 1.03倍更快) 251.86 us (✅ 1.00倍更慢)
64,000,000 1.53 ms (✅ 1.00倍) 1.55 ms (✅ 1.01倍更慢) 1.56 ms (✅ 1.02倍更慢)

axpy

krnl cuda ocl
1,000,000 90.76 us (✅ 1.00倍) 81.16 us (✅ 1.12倍更快) 88.94 us (✅ 1.02倍更快)
10,000,000 746.92 us (✅ 1.00倍) 770.03 us (✅ 1.03倍更慢) 779.90 us (✅ 1.04倍更慢)
64,000,000 4.71 ms (✅ 1.00倍) 4.90 ms (✅ 1.04倍更慢) 4.91 ms (✅ 1.04倍更慢)

许可证

双许可以兼容Rust项目。

根据Apache License 2.0 https://apache.ac.cn/licenses/LICENSE-2.0 或MIT许可证 http://opensource.org/licenses/MIT,由您选择。此文件不得复制、修改或分发,除非按照这些条款。

贡献

除非您明确声明,否则根据Apache-2.0许可证定义的,您有意提交以包含在该作品中的任何贡献,都将如上所述双许可,无任何附加条款或条件。

依赖项

~7MB
~178K SLoC