4个版本 (2个稳定版)

新 2.0.0	2024年8月24日
1.0.0	2024年7月28日
1.0.0-rc.2	2024年7月12日
1.0.0-rc.1	2023年6月26日

在数据库实现中排名10

每月下载量371次

MIT许可证

2MB
43K SLoC

GroveDB

分支	测试	覆盖率
master

具有高效二级索引查询的层次化认证数据结构

GroveDB是一个专门为高效二级索引查询、证明、速度和可靠性设计的数据库系统。它为Dash平台而构建，但可以轻松集成到其他应用程序中进行类似使用。

动机

二级索引对于任何数据库管理系统都至关重要。所有之前的解决方案都根据它们试图解决的问题存在某些权衡。

考虑一个认证数据结构，例如基于餐厅数据库构建的Merkle树。每家餐厅都有一些属性，例如价格和类型

struct Restaurant{
	ID uint32;
	name: String;
	type: String;
	isVegan: bool;
};

如果我们有四家餐厅，我们可能会将它们按如下方式提交到Merkle树中

graph TD;
root-->A[" "];
root-->B[" "];
A-->AA["id:0"];
A-->AB["id:1"];
B-->AC["id:2"];
B-->AD["id:3"];

通过主键进行查询既简单又高效。如果我们有一个查询，例如SELECT * WHERE ID <= 2; ，我们可以返回适当的元素并构建一个高效的证明。然而，通过二级索引进行查询并不高效；你很可能需要遍历整个结构。考虑查询 SELECT * WHERE isVegan=true;。当按主键排序时，纯素餐厅不会连续。这不仅证明是非平凡的，而且找到这些元素所需的时间也将是如此。

GroveDB 是一个经典的时空权衡。它通过预计算和提交来实现对二级索引的高效查询。每个可能的查询二级索引的子树（上限为一定数量）被构建并提交到我们的认证数据结构中。子树的树状结构；一个森林。对于相同的数据，GroveDB 结构的一部分可能如下所示

graph TD;
root-->A["\'Restaurant\'"];
root-->B["..."];
A-->Q["ID"];
A-->W["name"];
A-->E["kind"];
A-->R["isVegan"];
Q-->Z["..."];
W-->X["..."];
E-->C["..."];
R-->Y["id:2"];
R-->U["id:1"];
R-->I["id:0"];
R-->O["id:3"];

从这里，对二级索引 isVegan 的查询将遍历为此二级索引构建的子树。项目可能不是复制的，而是引用的。

特性

高效的二级索引查询 -专门为二级索引查询构建和定制。
证明 -支持成员证明、非成员证明和范围证明。
无处不在运行 -由于是用 Rust 编写的，它支持所有编译目标。x86、树莓派（AArch64）和 Wasm。还有 Node.js 绑定。

架构

插入和删除操作与预期一致，更新相应的子树并返回适当的成员/非成员证明。

树结构

我们选择一个统一的结构，而不是不相连的认证数据结构；基于使用分层认证数据结构的数据库外包的分层认证数据结构。元素是最基本的组成部分，可以用几种方式表示。它们可以是项目、项目引用、树、带有项目的树，甚至是带有项目引用的树。一个元素包含一个项目、一个对象的引用或一个子树。

这些树是基于我们对 Merk 的分支，并对其应用了自定义补丁，以便更好地与 GroveDB 一起使用。Merk 的独特之处在于它是一个 AVL 树，因此中间节点也包含一个键/值对。每个节点包含第三个哈希，即 kv_hash，除了其左右子节点的哈希之外。 kv_hash 简单地计算为 kv_hash=H(key,value)。然后计算节点哈希为 H(kv_hash,left_child_hash,right_child_hash)。Merk 使用 Blake2B，而 rs-merkle 使用 SHA256。

存储

RocksDB 是一个键值存储，由 LevelDB 分支而来，由 Facebook 构建。我们选择它是因为其高性能、成熟度以及与我们的堆栈的兼容性。Merk 本身是建立在 RocksDB 之上的。

我们有三种类型的存储：辅助存储、元数据和树根存储。辅助存储用于存储不用于共识的纯键值数据。元数据用于存储 GroveDB 使用范围之外的东西。它没有前缀，因此与子树无关。它位于更高的级别。树根存储用于存储子树。

GroveDB 中的数据库事务是对 RocksDB 的 OptimisticTransactionDB 原语的一个包装。乐观事务希望在平均情况下只有很少的冲突，这些冲突在提交阶段被检测到。这与使用锁的悲观模型相比。

查询

要查询 GroveDB，必须提供路径和查询项目。路径指定子树，查询项目确定从子树中选择哪些节点。

GroveDB 目前支持 10 种查询项目类型

键(key_name)
范围(start..end)
范围inclusive(start..=end)
范围full(..)
范围from(start..)
范围to(..end)
范围inclusive_to(..=end)
范围after(prev..)
范围after_to(prev..end)
范围inclusive_after_to(prev..=end)

这描述了一个基本的查询系统：选择一个子树然后从该子树中选择节点。可能需要创建更复杂的查询或对结果集添加限制，这导致我们转向 PathQuery。

PathQuery

PathQuery 允许进行更复杂的查询，并可选地对结果集进行限制，即限制和偏移量。

    PathQuery
        path: [k1, k2, ..]
        sized_query: SizedQuery
            limit: Optional<number>
            offset: Optional<number>
            query: Query
                items: [query_item_1, query_item_2, ...],
                default_subquery_branch: SubqueryBranch
                    subquery_path: Optional<key>
                    subquery_value: Optional<Query>
                conditional_subquery_branches: Map<QueryItem, SubqueryBranch>

需要一个路径来定义查询的起始上下文。

大小查询

sized_query 确定了结果集的限制方式。它包含可选的极限和偏移量。limit 确定了结果集的最大大小，而 offset 指定了在添加到结果集之前要跳过的元素数量。

查询

query 对象是一个递归结构 - 它指定了如何从当前子树中选择节点，并且可以选择递归地将另一个查询应用于前一个查询得到的结果集。

项目

items 是一组查询项集合，用于决定从当前上下文中选择哪些节点（这会构建一个结果集）。

在描述 default_subquery_branch 和 conditional_subquery_branches 之前，我们需要定义它们的构建块，子查询分支

子查询分支

    subquery_path: Optional<Key>
    subquery_value: Optional<Query>

情况

subquery_path: true，subquery_value: false
选择具有子查询路径的节点，并将其作为结果集返回。
subquery_path: false，subquery_value: true
直接将子查询值应用于子树，并将结果作为结果集返回。
subquery_path: true，subquery_value: true 首先选择具有子查询路径的节点并将其设置为新的上下文。
然后，将子查询值应用于此新上下文，并将结果作为结果集返回。

子查询分支用于单个节点，但可以通过使用 default_subquery_branch 和 conditional_subquery_branches 应用于先前查询的结果集。

默认子查询分支

如果存在，则将指定的子查询分支应用于前一个查询的结果集中的每个节点。

条件子查询分支

您可能希望将子查询分支应用于结果集的子集而不是每个节点。在这种情况下，我们使用条件子查询。

条件子查询包含一个映射，从 QueryItem 到 SubqueryBranch。

    Map<QueryItem, SubqueryBranch>

对于结果集中的每个节点，我们检查是否存在与之匹配的查询项。如果存在，则将关联的子查询分支应用于该节点。请注意，一旦条件子查询应用于一个节点，默认子查询就不会在该节点上运行。

合并路径查询

本节描述了 GroveDB 如何处理路径查询的合并。

可合并路径查询允许将执行不同操作的不同路径查询组合成单个等效路径查询。

路径查询可以表示为键集（子树路径）和应用于该子树的查询（查询可以有未知深度）。

p_i = [k₁, k₂, .., k_n, Query]

需要展示的是，路径查询链可以在任何点压缩，即可以将一系列键转换成一个查询。

考虑 p₁ = [k₁, k₂, k₃]。这表示为

从根树中选择具有键 k1 的节点
将上下文更改为 k1，然后选择具有键 k2 的节点
将上下文更改为 k2，最后选择具有键 k3 的节点

我们可以创建一个等效查询来表示这一点，它可以看起来像这样

    Query
        query k1
        cond on k1
            query k2
            cond on k2
                query k3
                cond on k3

[k₁, k₂, k₃] => Q₁，其中 Q1 等价于路径数组。

这也可以在任何路径数组点上执行，因此我们可以有

[k₁, k₂, k₃] => [k₁, Q₂]
[k₁, k₂, k₃] => [K₁, K₂ Q₃]

路径合并算法变为

查找路径查询中的公共路径
将每个路径数组压缩到公共路径索引之后的查询
将压缩后的查询合并为单个查询
返回具有公共路径作为路径和组合查询作为查询的新路径查询

示例
p₁ = [k₁, k₂, k₃, Q_a]
p₂ = [k₁, k₂, k₄, Q_b]

公共路径 = [k1, k2]

在公共路径之后压缩每个路径数组
p₁ = [k₁, k₂, Q_c]
p₂ = [k₁, k₂, Q_d]

合并压缩后的查询
Q_p = Q_c + Q_d

返回最终的 PathQuery
p_f = [k₁, k₂, Q_p]

用法

GroveDB是为与 Dash 平台一起使用而构建的，但可以轻松集成到其他应用程序中进行类似使用。请参阅其在 rs-drive（《示例》）中的使用。

我们目前还有 Node.js 的绑定。请参阅 node-grove。

构建

首先，使用您首选的方法安装 rustup。

构建需要 Rust 夜间版，请确保您使用的是正确的版本。

rustup安装夜间版

克隆存储库并导航到主目录

gitclone https://github.com/dashevo/grovedb.git && cdgrovedb

从这里我们可以构建

cargobuild

grovedbg

有一个正在进行的 GroveDB 调试层实现。要使用此库并启用这些功能，需要设置具有 grovedbg 功能的依赖项。

然后，为了启动可视化工具以在端口上观察浏览器中的数据库结构，例如 10000 端口，以下片段应该可以

    let db = Arc::new(GroveDb::open("db").unwrap());
    db.start_visualzier(10000);

只需记住使用 Arc，因为 HTTP 服务器可能会超过 GroveDB 实例的寿命。

性能

使用 cargo test 运行

CPU	时间
树莓派 4	2m58.491s
R5 1600AF	33.958s
R5 3600	25.658s

依赖关系

~5–22MB
~352K SLoC