surge-input

23个发布版本

0.2.12-alpha.0	2023年4月7日
0.2.11-alpha.0	2022年12月19日
0.2.5-alpha.0	2022年6月21日
0.2.4-alpha.0	2022年3月14日
0.1.42-alpha.0	2021年10月27日

#5 in #surge

92 每月下载量
用于 10 个crate（8个直接使用）

GPL-3.0 许可证

180KB
3K SLoC

此Rustcrate提供了处理surge合成器系统中音频输入所需的结构和函数。

SynthInput

SynthInput结构体表示合成器的音频输入源。它包含两个音频通道（audio_in_left和audio_in_right）和一定数量的参数输入。

SynthInputHandle

SynthInputHandle结构体是SynthInput对象的句柄，由音频后端（如Core Audio或JACK）管理。

audio_in0, audio_in0_ptr, audio_in1, audio_in1_ptr

这些常量是指向SynthInput对象音频输入缓冲区的指针。后缀_ptr表示这些是缓冲区内存的原始指针。

audio_in_left, audio_in_right

这些常量是对SynthInput对象左右音频通道的可变引用。

non_os_audio_in0_ptr, non_os_audio_in1_ptr, non_os_audio_in_left, non_os_audio_in_right

这些常量与audio_in0、audio_in1、audio_in_left和audio_in_right类似，但用于非操作系统音频后端。

parameter

parameter模块包含处理SynthInput对象中的参数输入的类型和函数。

init

init函数使用默认值初始化SynthInput对象。

总的来说，surge-input提供了一种方便且灵活的方式来处理surge合成器系统中的音频输入。可以使用SynthInput对象来处理来自各种源的音频输入，而parameter模块允许轻松处理参数输入。

在数字音频软件合成器的情况下，音频输入来自哪里？

在数字音频软件合成器的上下文中，音频输入通常来自外部设备，如麦克风或音频接口上的线路输入。它也可以来自生成音频输出并将其作为输入信号馈入合成器的软件程序。在两种情况下，音频输入都用作合成器内部处理的源信号，通常在输出为新的音频信号之前，会以各种方式被过滤、调制和转换。

92> 音频信息以何种格式到达？

在数字音频软件合成器的上下文中，音频信息通常以数字音频样本流的形式到达。每个样本是音频波形在特定时间点的振幅的数值表示。音频样本的格式可能因所使用的音频接口而异，但常见的格式包括16位或24位PCM（脉冲编码调制）音频，采样率为44.1 kHz或48 kHz。在某些情况下，还可能使用其他格式，如浮点音频。

93> 如何在Rust中从命令行连接音频输入？

在Rust中，可以使用提供跨平台音频库API的cpalcrate来从命令行连接音频输入。以下是如何使用cpal打开音频输入流的简单示例：

use cpal::traits::{DeviceTrait, HostTrait, StreamTrait};
use std::thread;

fn main() {
    let host = cpal::default_host();
    let device = host.default_input_device().expect("no input device available");
    let config = device.default_input_config().expect("no default input config available");
    let sample_rate = config.sample_rate().0;
    let channels = config.channels();

    let stream = device.build_input_stream(
        &config.into(),
        move |data: &[f32], _: &cpal::InputCallbackInfo| {
            // Process the audio data
            // Here we just print the first 10 samples
            println!("{:?}", &data[0..10]);
        },
        |err| {
            eprintln!("an error occurred on the input stream: {}", err);
        },
    ).unwrap();

    stream.play().unwrap();

    // Keep the program running indefinitely to continue processing audio input
    loop {
        thread::park();
    }
}

此代码将打开默认输入设备，使用默认输入配置进行配置，然后构建一个输入流，该流将连续调用提供的输入回调函数以处理传入的音频数据。

一旦构建了流，就可以使用play方法启动它，然后程序可以使用loop无限期地继续处理音频输入。

94> 这是性能最佳解决方案吗？

对于这个问题没有直接的答案，因为最佳的解决方案可能取决于多个因素，例如所使用的硬件和软件的具体细节、输入数据的大小和复杂性以及应用程序的要求。

尽管如此，使用环形缓冲区和专用线程来读取和处理音频输入数据，通常是在软件合成器中处理实时音频输入的一种非常有效的方法。通过将输入数据保存在一个线程安全的缓冲区中，并有一个专用线程来读取和处理这些数据，可以避免在同一个线程中直接处理输入数据时可能出现的潜在阻塞或同步问题。

此外，您可能可以通过使用低级库如PortAudio或JACK来提高性能，这些库为实时音频输入和输出提供了优化的API。这些库有助于最小化处理音频输入时的开销，并允许您利用硬件加速和其他性能优化。

95> 如果不使用PortAudio、cpal或Jack怎么办？

如果不依赖像PortAudio、cpal或Jack这样的第三方库，接收音频输入的一种方法可能是使用操作系统特定的API进行音频捕获。例如，在Linux上，可以使用ALSA（高级Linux声音架构）或PulseAudio。在macOS上，可以使用Core Audio。在Windows上，可以使用WASAPI（Windows音频会话API）或DirectSound。

但是，直接使用操作系统特定的API可能比使用像PortAudio或cpal这样的跨平台音频库更复杂、更不便携。此外，它可能需要了解每个平台上的音频子系统，以及每个API可能的不同实现细节。

96> 如果我们想避开这些API怎么办？

如果您想避免使用PortAudio、cpal或Jack，就需要编写自己的代码来直接与音频设备驱动程序或系统API交互。这种方法可能非常特定于平台，并且需要很好地理解底层系统编程。

一个选择是使用跨平台库如SDL（简单直接媒体层）或GLFW（OpenGL框架），它们提供处理音频输入的抽象层。这些库支持广泛的操作系统，并提供处理音频和图形的API。然而，使用这些库可能会给您的项目增加额外的开销和复杂性。

97> 那么，SDL和GLFW可以直接与音频设备驱动程序交互吗？

SDL和GLFW通过它们的API以平台无关的方式与音频设备交互，但它们仍然依赖于底层音频驱动程序来处理底层硬件通信。

例如，SDL的音频子系统可以使用不同的后端与音频设备交互，包括DirectSound、ALSA、OSS等，这取决于平台。GLFW使用系统的默认音频设备，并提供了一个简单的API来与之交互。

因此，虽然SDL和GLFW提供了音频设备驱动程序的抽象，但它们仍然依赖于它来正常工作。

98> 我们该如何在不依赖它们的情况下完成这个任务？

如果您想避免使用外部库来处理音频输入，可以使用特定于平台的API直接访问音频设备。例如，在Linux上，您可以使用ALSA（高级Linux声音架构）API。在Windows上，您可以使用Windows多媒体API（WMM）或Windows核心音频API。在macOS上，您可以使用核心音频框架。

然而，直接使用这些API可能比使用PortAudio、cpal或Jack这样的高级库更复杂，并且可能需要更多关于底层音频设备硬件和软件的低级知识。此外，使用特定于平台的API可能会使您的代码在不同操作系统间的可移植性降低。

99> 如果我们进一步降低级别，能否使其性能更好？

是的，通过降低级别可以获得更好的性能，但这需要更多的努力，并且会使代码的可移植性降低。

一种方法是通过直接使用操作系统特定的音频API，如macOS上的Core Audio、Linux上的ALSA和Windows上的WASAPI。这将需要更多的代码和特定于平台的代码，但将允许对音频流有更多的控制，并可能降低延迟。

另一种方法是使用更低级的编程语言如C或汇编编写音频输入代码，这可以提供对硬件的更多直接控制，并可能降低延迟。然而，这需要更多的低级编程专业知识，并且对于大多数用例可能不是必需的。

100> 让我们直接进入最低级别，使用C/汇编接口编写音频输入代码。我们该如何做这个？

为了在最低级别与音频设备交互，我们需要编写平台特定的C或汇编代码，这些代码直接与音频设备驱动程序交互。这需要理解特定操作系统和硬件架构的音频设备驱动程序接口的底层细节。

一旦有了平台特定的C或汇编代码，我们就可以使用Rust的外部函数接口（FFI）从Rust中调用它。这涉及到在Rust中声明C或汇编函数，然后使用extern关键字调用它们。

虽然这种方法可以提供最高的性能，但它也具有最高的复杂性，需要深入理解操作系统和硬件架构。此外，特定于平台的代码不可移植，需要为每个目标平台分别编写和维护。

101> 这个听起来不错 -- 让我们提高性能。我们做这个需要了解操作系统和硬件架构的哪些知识？

为了实现尽可能高的性能，我们需要对底层操作系统和硬件架构有良好的理解。以下是一些需要考虑的因素：

CPU 架构：CPU 架构在确定音频输入处理性能方面起着至关重要的作用。了解 CPU 的指令集并根据需要进行代码优化非常重要。例如，在基于 x86 的系统中，我们可以使用 SSE 或 AVX 指令来高效地执行音频输入处理。
内存管理：音频输入处理需要大量的内存，尤其是在处理大型音频文件时。优化内存使用并最小化内存和 CPU 缓存之间的数据移动非常重要。
中断处理：音频输入处理需要精确的时序和响应速度，可以通过中断处理来实现。优化中断处理可以最小化音频输入和处理之间的延迟。
实时调度：实时调度对于音频输入处理至关重要，因为它确保音频处理任务能够及时执行。配置操作系统使用实时调度器并将音频输入处理任务分配最高优先级非常重要。
低级硬件访问：为了实现尽可能高的性能，我们可能需要直接访问硬件资源，绕过操作系统的设备驱动程序。这需要深入了解硬件架构和低级编程技能。

总的来说，为了实现音频输入处理的最高性能，需要深入了解底层硬件和软件架构，以及编写低级、优化的代码的能力。

102> 我们如何进行低级硬件访问？

执行低级硬件访问涉及使用系统特定的指令和寄存器直接与硬件组件交互。要在 Rust 中执行低级硬件访问，通常需要使用内联汇编或外部函数接口（FFI）来调用编写用于访问硬件的 C 函数。

Rust 使用 asm! 宏支持内联汇编，它允许你直接在 Rust 源代码中编写内联汇编代码。然而，编写内联汇编可能相当复杂且容易出错，因此通常只推荐给熟悉底层硬件架构和系统特定汇编语言的专业用户。

在 Rust 中执行低级硬件访问的更常见方法是使用外部函数接口（FFI）来调用编写用于与硬件交互的 C 函数。Rust 通过其 libc crate 内置支持调用 C 函数，该 crate 提供了一组绑定到 C 标准库。你也可以使用 Rust 的 bindgen crate 自动生成 Rust 绑定 C 头文件的绑定，这可以简化处理 C 函数的过程。

执行低级硬件访问时，了解硬件架构以及用于与硬件交互的系统特定指令和寄存器非常重要。你还应该熟悉任何需要用于访问硬件的系统特定编程接口，如设备驱动程序或系统调用。此外，低级硬件访问可能很危险，可能会导致系统不稳定或数据丢失，因此在将代码部署到生产环境之前，重要的是要小心并彻底测试你的代码。

103> 让我们在 arm 架构上使用内联汇编。我们如何确定我们需要的确切硬件？

为了确定我们需要与之通信的确切硬件，我们需要知道我们想要访问的外设寄存器的确切硬件地址。在ARM架构中，外设寄存器被映射到处理器内存地址空间中的特定地址。我们可以通过查阅我们使用的微控制器或微处理器的数据手册来找到外设寄存器的内存地址。

例如，假设我们想要使用内联汇编来访问树莓派上的GPIO（通用输入/输出）外设。我们可以通过查阅树莓派所使用的系统级芯片BCM2835的数据手册来找到GPIO外设的内存映射地址。该数据手册提供了一份寄存器映射表，显示了每个外设寄存器的内存地址。然后，我们可以在内联汇编代码中使用这个内存地址来访问GPIO外设。

需要注意的是，通过内联汇编访问硬件寄存器并不总是必要或推荐的。许多现代微控制器和微处理器提供API或库来抽象低级硬件访问，并提供一种更安全、更便携的方式来与硬件交互。然而，如果性能是关键问题，或者我们需要执行API或库不支持的操作，内联汇编可能是一个可行的选项。

104> 我们需要考虑哪些API？

如果您计划使用内联汇编直接访问硬件，您需要查阅硬件制造商提供的文档，以了解如何正确访问硬件。您使用的确切API将取决于您正在处理的特定硬件。

一般来说，在直接访问硬件时非常小心是很重要的，如果不小心，很容易引入错误或导致意外行为。您还需要小心编写跨不同操作系统和架构的可移植代码，这可能具有挑战性。

如果您正在寻找一种更高级的与硬件交互的方式，您可以考虑使用提供硬件抽象层的库或框架，例如Rust的embedded-hal或C库wiringPi或libgpiod。这些库提供了与硬件交互的更标准接口，可能比直接编写内联汇编更容易使用。

105> 有趣。我稍后会回来。我认为了解各种层是有用的

当然，了解音频编程中涉及的不同层可以帮助更全面地了解系统，并识别潜在的瓶颈或优化区域。如果您对这个话题有任何更多的问题，请告诉我！

依赖项

~12-21MB
~317K SLoC