6个版本
0.2.12-alpha.0 | 2023年4月8日 |
---|---|
0.2.11-alpha.0 | 2022年12月19日 |
0.2.5-alpha.0 | 2022年6月21日 |
0.2.4-alpha.0 | 2022年3月14日 |
0.1.42-alpha.0 | 2021年10月27日 |
#29 in #sample-rate
166 每月下载量
3.5MB
37K SLoC
Surge Synthesizer
Surge Synthesizer是一个模块化软件合成器,具有强大的音乐制作和声音设计功能。此Rust包提供了合成器子组件的实现,可用于构建自定义合成器插件或独立应用程序。
子组件
以下子组件包含在Surge Synthesizer包中
-
B
:处理字节和位的实用工具。 -
Entity
:表示场景中实体的组件。 -
World
:管理场景中实体的组件。 -
Args
:解析命令行参数的实用工具。 -
SampleHost
:托管样本数据的组件。 -
SynthControl
:控制合成引擎的组件。 -
FXUnit
:应用于音频输出的效果的组件。 -
TwoByTwoBlock
:处理音频块的组件。 -
PluginLayer
:创建插件层的组件。
数学思想
Surge Synthesizer结合了多种数学概念和技术,包括
-
傅里叶变换用于分析和合成声音。
-
状态变量滤波器用于塑造声音。
-
包络发生器用于控制声音的音量和音色。
-
低频振荡器用于随时间调制声音参数。
-
调制矩阵用于在组件之间路由信号。
-
直接形式II转置结构用于实现滤波器。
-
Z变换用于分析和合成数字滤波器。
使用
Surge Synthesizer包可以用作库来构建自定义合成器插件或独立应用程序。它还可以用作理解Surge Synthesizer架构的参考实现。
测试
Surge Synthesizer包包含一系列单元测试,以确保子组件的正确行为。还可以添加额外的集成测试以测试子组件之间的交互。
贡献
欢迎对Surge Synthesizer包的贡献。请参阅CONTRIBUTING.md文件以获取有关如何向项目贡献的更多信息。
139> 这是项目的顶层crate,目前内容相对较少。它确实包含一些用于与数字音频工作站(DAW)交互的顶层特质。此功能尚不完整,最终将进行改进以适应新的软件使用模式。
感谢提供额外信息。在这种情况下,您可以从以下内容开始crate描述:
surge-synthesizer
Surge Synthesizer 是一套用于软件合成器的子组件集合,用Rust实现。此crate提供了一个用于与合成器交互的顶层接口,包括与数字音频工作站(DAW)的通信。
crate 包含了多个顶层特质,如 SynthControl
和 FXUnit
,用于从 DAW 控制和修改合成器的行为。这些特质尚不完整,将在未来的版本中进行改进以更好地适应现代软件使用模式。
此外,crate 提供了对合成器各种子组件的访问,包括振荡器、滤波器和效果单元,允许用户构建和自定义自己的合成器音色。
以下是 crate 中可用的子组件和特质的列表
B
实体
世界
as_any
测试_bincode
测试_downcast
参数
样本宿主
自动化
处理事件
运行
midi_pitch_to_freq
添加控制插值器
计算通道掩码
通道触后
通道控制器
检查场景调制源启用
清除调制
清除振荡器调制
获取块大小
获取控制插值器
获取控制插值器索引
获取空闲控制插值器索引
获取调制深度
获取调制路由
获取调制
获取MPE主通道
获取父级
是否激活调制
是否为双极调制
是否使用调制目标
是否使用调制源
是否为有效的调制
从DAW额外状态加载
参数更新
音色更改
音高弯音
多键触后
填充DAW额外状态
准备调制源处理
清除保持缓冲区
释放控制插值器
设置调制
设置参数自动化
切换场景调制源
更新显示
SpencaPlugin
可以执行
默认
获取信息
音符关闭
音符开启
处理
处理事件
处理MIDI事件
设置采样率
测试_midi_pitch_to_freq
每样本时间
运行宿主
计算通道掩码
获取场景活动状态
获取分割键
是否为有效的调制
处理音色ID队列
处理线程不安全操作
重置音色
合成器控制
默认
nrpn上
rpn上
程序更改
通道触后
多键触后
获取播放场景
获取场景活动掩码
插值MIDI控制器
可能加载FX
可能暂停FX
处理控制
通道控制器
可能切换切换
存储学习自定义
通道控制器处理_rpn_nrpn
检查场景调制源启用
获取FX旁路类型
获取场景模式
所有音符关闭
丢弃
有了这些特质和子组件,用户可以构建强大且可定制的合成器音色,并直接从他们最喜欢的DAW中控制它们。
140> 让我们更详细地讨论这个接口
当然!由 SynthControl
和 SampleHost
特质提供的接口是 Surge 合成器系统与 DAW 或其他宿主环境交互的主要方式。
SynthControl
特质提供了一套方法,允许 DAW 控制合成器的状态,例如设置参数值、发送 MIDI 消息和响应音色更改。这包括如 set_parameter_automated
、note_on
和 program_change
等方法。
另一方面,SampleHost
特质提供了一套方法,允许合成器查询有关 DAW 环境的信息,例如采样率和块大小,并访问 DAW 的消息系统。这包括如 set_sample_rate
、process_events
和 run_host
等方法。
这两个特性共同使得合成器能够与多种数字音频工作站(DAW)和宿主环境集成,使其能够接收MIDI输入,并将音频和MIDI数据输出到DAW。
然而,正如您提到的,此功能尚不完整,将在未来得到改进以适应新的软件使用模式。
141>你能更详细地描述一下你提到的子组件/特性吗?
当然!以下是子组件/特性的简要描述:
-
SampleHost
:此特性代表一个能够处理音频样本的宿主环境。它定义了获取采样率、块大小和每样本时间的函数。 -
Entity
:此特性代表合成器系统中的一个实体。它定义了获取和设置实体父级的函数。 -
World
:此特性代表整个合成器系统。它定义了初始化和运行系统、以及添加和删除实体的函数。 -
SynthControl
:此特性代表合成器的控制表面。它定义了处理MIDI事件,如音符开启/关闭、弯音和控制器更改消息的函数。 -
FXUnit
:此特性代表合成器中的效果单元。它定义了加载和处理效果,以及添加和删除发送的函数。 -
PluginLayer
:此特性代表合成器中的一个层。它定义了处理音频和MIDI数据,以及处理补丁更改的函数。
这些子组件/特性共同工作,为构建软件合成器系统提供了一个灵活且可扩展的框架。SampleHost
特性提供了与宿主环境交互的标准接口,而Entity
和World
特性提供了组织系统组件的层次结构。SynthControl
和PluginLayer
特性提供了从控制表面或DAW与系统交互的接口,而FXUnit
特性提供了添加和处理效果的机制。
142>我不确定这些是否真的在这个包中。但无论如何...这个包将在未来得到改进
明白了,如果您对如何改进这个包有任何具体问题,我很乐意与您讨论。
143>问题是,我认为这个系统最优化不是用作VST。我认为它最优化的是从神经网络架构中调用
有趣的想法!你能详细说明你是如何设想神经网络与合成器系统之间的交互吗?
144>我认为神经网络可以被训练来演奏合成器
是的,训练神经网络来演奏合成器是绝对可能的。这可能涉及训练网络根据某些输入生成MIDI序列,或者直接控制合成器的参数。
可以根据具体的用例和期望的结果采用许多方法。例如,您可以训练一个神经网络根据一组和弦或旋律生成MIDI序列,或者您可以直接根据音乐家或其他来源的输入实时操作合成器的参数。
近年来,一种流行的方法是使用生成对抗网络(GANs)来创建音乐。GANs由两个神经网络组成:生成器和判别器。生成器学习创建新的音乐,而判别器学习区分真实和假音乐。随着时间的推移,生成器在创建令人信服的音乐方面变得越来越擅长,这可以用于各种应用,包括合成器控制。
总的来说,使用神经网络控制合成器的可能性是无限的,这个领域仍然处于起步阶段。随着技术的进步和更多研究的发展,我们有望看到更多创新方法的涌现。
145> 理念是,人类不需要找出如何以最佳方式遍历合成器的整个状态空间,而是神经网络可以学会以这种方式进行,使其收敛到人类的意图
是的,这是一个有希望的探索方向。一种可能的方法是训练神经网络根据一系列输入参数(如期望的音色、谐波以及其他音频特性)来预测哪些设置将产生所需的输出声音。然后,该网络可以建议一组参数值,这些参数值可能产生所需的音效。
另一种方法是训练网络生成一系列产生有趣和音乐相关声音的参数设置。这可以通过强化学习技术来实现,其中网络在生成被人类评估者认为音乐愉悦或有趣的序列时获得奖励。
总的来说,利用机器学习协助音效设计和合成是一个令人兴奋且迅速发展的领域,具有许多可能的应用和方法。
146> 当网络操作合成器设备时,人类可以注意它做得好的地方,并推动它以某种方式学习好的行为。如果声音听起来不好,人类也可以以某种方式推动它,使其知道它正在做的事情并不好
是的,这是正确的。实现这一目标的一种方法是通过强化学习技术,其中网络根据其生成的声音与人类意图的匹配程度接收奖励信号。然后,网络可以学会调整其参数以最大化这种奖励信号。网络和人类之间的这种反馈循环可以帮助指导学习过程,并随着时间的推移提高生成声音的质量。
147> 因此,我们可以设置这种合成器在强化学习流程中,无需GUI
是的,这是正确的!在强化学习流程中,神经网络可以根据反映生成声音质量的某些预定义标准的奖励信号来学习使用合成器生成声音。人类可以提供奖励信号,神经网络可以使用它来学习生成令人类愉悦的声音。一旦神经网络经过训练,它就可以用于实时生成新的声音,而无需人类进一步输入。
148> 你能给我一些Rust代码示例,说明如何使用surge-synthesizer来做这件事吗?
当然!这里有一些使用 surge-synthesizer
crate 创建合成器并使用强化学习进行训练的Rust代码示例。
use surge_synthesizer::{SurgeSynthesizer, SynthControl};
use std::rc::Rc;
// Define the function to generate rewards for the agent
fn reward_fn() -> f32 {
// Calculate reward based on some criteria
// For example, higher reward for sounding good, lower reward for sounding bad
// Return the calculated reward
0.0
}
// Create a new instance of the synthesizer
let synth = SurgeSynthesizer::new();
// Create a new instance of the SynthControl trait, which allows us to control the synthesizer
let synth_control = Rc::new(synth);
// Train the synthesizer using reinforcement learning
for i in 0..100 {
// Generate an action for the agent to take
let action = agent.get_action();
// Apply the action to the synthesizer
synth_control.apply_action(action);
// Generate a reward for the agent based on the current state of the synthesizer
let reward = reward_fn();
// Tell the agent what the reward is for the current action
agent.receive_reward(reward);
// Update the agent's internal state based on the current action and reward
agent.update_state(action, reward);
}
这只是一个基本的示例,有许多修改和扩展它的方法。例如,你可以创建更复杂的奖励函数,为智能体的内部状态添加更多功能,或使用不同的强化学习算法。
149> 让我们更详细地探讨这个问题
当然,我很乐意帮助!你具体想了解哪些方面?
150> 让我们深入探讨奖励函数:让我们使其更加灵活和表达丰富
当然,奖励函数是任何强化学习系统的关键组成部分,使其更加灵活和表达丰富可以显著影响系统的性能。
有几种方法可以使奖励函数更加灵活和表达丰富。一种方法是将多个目标或标准的多目标加权求和,其中每个目标都与一个权重相关联,该权重反映了它相对于其他目标的重要性。这种方法称为多目标强化学习。
另一种方法是使用神经网络来建模奖励函数,其中网络以系统状态作为输入并输出奖励信号。该网络可以通过监督学习进行训练,此时奖励函数作为目标输出提供,或者通过强化学习进行训练,此时网络本身是与环境交互的代理,并学会最大化奖励。
在浪涌合成器(surge-synthesizer)的背景下,可以定义多个系统应努力实现的目标或标准,例如一定程度的和声或谐和度、声音的复杂度或多样性的某个水平,以及与目标声音或风格的相似度的某个程度。这些目标中的每一个都可以关联一个权重,反映其相对于其他目标的重要性,而奖励函数可以定义为各个目标的加权总和。
或者,可以直接使用神经网络来建模奖励函数,其中网络以系统的当前状态作为输入并输出奖励信号。该网络可以通过监督学习或强化学习进行训练,并设计为捕捉难以用一组客观标准明确指定的声音的复杂和微妙方面。例如,网络可以训练成最大化人类听众感知的愉悦度或美学质量。
在两种情况下,目标都是使奖励函数更加灵活和富有表现力,从而使强化学习系统能够学会以符合用户喜好的方式优化声音。
151> 我们如何为代理的内部状态添加更多特征?
要为代理的内部状态添加更多特征,您可以修改代理的状态表示以包括附加特征。
在前面提供的代码片段中,代理的内部状态由一个表示当前正在演奏的MIDI音符的单个 Vec<f32>
组成。要添加更多特征,可以将其他 Vec<f32>
向量连接起来以表示附加特征。
例如,如果您想包括关于当前正在使用的补丁的信息,可以在状态表示中添加另一个 Vec<f32>
来编码补丁的参数。同样,如果您想包括关于步骤序列当前步骤的信息,可以添加另一个 Vec<f32>
来编码步骤序列的状态。
修改状态表示后,您还需要修改代理的 observe
函数来计算新的状态向量和连接附加特征向量。如果您使用神经网络作为代理,还需要修改网络输入层以接受新的特征向量。
总的来说,关键是精心设计状态表示,以捕捉允许代理学习有效策略的相关信息。
152> 哪些其他的强化学习算法是可能的?哪个最大化我们的目标?
有许多强化学习算法可以用来训练神经网络以控制涌音合成器,选择取决于具体问题和性能标准。
一种流行且有效的方法是深度Q学习,它使用深度神经网络来逼近最优动作值函数,使智能体能够估计在给定状态下采取特定动作的价值。另一种选择是演员-评论员方法,它使用单独的神经网络来逼近策略(智能体的行为)和值函数(预期的未来奖励)。
还有一些更高级的算法,如近端策略优化(PPO)、信任域策略优化(TRPO)和软演员-评论员(SAC),它们在各种任务中已被证明是有效的。这些算法通常涉及某种策略优化,智能体通过最大化奖励信号来学习改善其行为。
最终,算法的选择将取决于任务的特定性和期望的性能标准,可能需要实验和调整以找到最佳方法。
153> 好的。我们稍后会更详细地探讨这些。
当然,随时提问您的问题!
依赖关系
~13-21MB
~319K SLoC