4个版本 (2个稳定版)

2.0.0 2024年8月24日
1.0.0 2024年7月28日
1.0.0-rc.22024年7月12日
1.0.0-rc.12023年6月26日

#1275 in 数据库接口

Download history 5/week @ 2024-05-19 1/week @ 2024-05-26 3/week @ 2024-06-09 1/week @ 2024-06-16 2/week @ 2024-06-23 107/week @ 2024-07-07 40/week @ 2024-07-14 24/week @ 2024-07-21 270/week @ 2024-07-28 72/week @ 2024-08-04 47/week @ 2024-08-11

每月417次下载
3 crate中使用

MIT许可证

8KB
135

GroveDB

分支 测试 覆盖率
master Tests codecov

高效二级索引查询的分层认证数据结构

GroveDB是一个专门为高效二级索引查询、证明、速度和可靠性而设计的数据库系统。它是为Dash平台而构建的,但可以轻松集成到其他类似用途的应用程序中。

动机

二级索引对任何数据库管理系统都至关重要。所有之前的解决方案都根据要解决的问题存在某些权衡。

考虑一个认证数据结构,例如基于餐厅数据库的Merkle树。每个餐厅都有某些属性,如价格和类型。

struct Restaurant{
	ID uint32;
	name: String;
	type: String;
	isVegan: bool;
};

如果我们有四个餐厅,我们可能会像这样将它们提交到Merkle树中:

graph TD;
root-->A[" "];
root-->B[" "];
A-->AA["id:0"];
A-->AB["id:1"];
B-->AC["id:2"];
B-->AD["id:3"];

通过主键查询既简单又高效。如果我们有一个查询,如SELECT * WHERE ID <= 2; ,我们可以返回适当的元素以及构造一个有效的范围证明。然而,通过二级索引查询并不高效;你很可能会不得不遍历整个结构。考虑查询 SELECT * WHERE isVegan=true;。当按主键排序时,纯素食餐厅不会连续。不仅证明将不平凡,而且找到这些元素所需的时间也将很长。

GroveDB 是一个经典的时间和空间权衡方案。它通过预先计算和提交来实现对二级索引的高效查询。为每个可能的查询性二级索引(最多到上限)构建一个子树,并将其提交到我们的认证数据结构中。子树的树状结构;一个森林。对于相同的数据,类似的 GroveDB 结构可能看起来像这样

graph TD;
root-->A["\'Restaurant\'"];
root-->B["..."];
A-->Q["ID"];
A-->W["name"];
A-->E["kind"];
A-->R["isVegan"];
Q-->Z["..."];
W-->X["..."];
E-->C["..."];
R-->Y["id:2"];
R-->U["id:1"];
R-->I["id:0"];
R-->O["id:3"];

从这里,对二级索引 isVegan 的查询将遍历为该二级索引构建的子树。项目不一定被复制,而是被引用。

特性

  • 高效的二级索引查询 - 专门为二级索引查询构建和定制。
  • 证明 - 支持成员证明、非成员证明和范围证明。
  • 可在任何地方运行 - 由于是用 Rust 编写的,它支持所有编译目标。x86、树莓派(AArch64)和 Wasm。还有 Node.js 绑定。

架构

插入和删除操作与您预期的一样,更新相应的子树并返回适当的成员/非成员证明。

树结构

我们选择一个统一的方案,而不是不相交的认证数据结构;这是一个基于 Database Outsourcing with Hierarchical Authenticated Data Structures 的分层认证数据结构。元素是最基本的单元,可以用几种方式表示。它们可以是项目、项目引用、树、带项目的树,甚至是带项目引用的树。一个元素包含一个项目、一个对象的引用或一个子树。

树基于我们的 Merk 分支,并针对与 GroveDB 更好的使用应用了自定义补丁。Merk 的独特之处在于它是一个 AVL 树,因此中间节点也包含一个键/值对。每个节点包含第三个哈希,即 kv_hash,除了其左右子节点的哈希外。kv_hash 简单地计算为 kv_hash=H(key,value)。然后计算节点哈希为 H(kv_hash,left_child_hash,right_child_hash)。Merk 使用 Blake2B,而 rs-merkle 使用 SHA256。

存储

RocksDB 是一个键值存储,由 LevelDB 分支而来,由 Facebook 构建。我们选择它是因为其高性能、成熟度和与我们的堆栈的兼容性。Merk 本身建立在 RocksDB 之上。

我们有三种存储类型:辅助存储、元数据存储和树根存储。辅助存储用于存储不用于共识的纯键值数据。元数据用于存储 GroveDB 使用范围之外的内容。它没有前缀,因此与子树无关。它位于更高层次。树根存储用于存储子树。

GroveDB 中的数据库事务是围绕 RocksDB 的 OptimisticTransactionDB 原语的一个包装。乐观事务希望平均只有少数冲突,这些冲突在提交阶段被检测到。这与使用锁的悲观模型相比。

查询

要查询 GroveDB,必须提供路径和查询项。路径指定子树,查询项确定从子树中选择哪些节点。

GroveDB 目前支持 10 种查询项类型

  • 键(key_name)
  • 范围(start..end)
  • 范围(start..=end)
  • 范围(..)
  • 范围(start..)
  • 范围(..end)
  • 范围(..=end)
  • 范围(prev..)
  • 范围(prev..end)
  • 范围(prev..=end)

这描述了一个基本的查询系统:选择一个子树然后从该子树中选择节点。可能需要创建更复杂的查询或对结果集添加限制,这导致我们转向 PathQuery

PathQuery

PathQuery 允许进行更复杂的查询,可以对结果集进行可选的限制,例如限制和偏移。

    PathQuery
        path: [k1, k2, ..]
        sized_query: SizedQuery
            limit: Optional<number>
            offset: Optional<number>
            query: Query
                items: [query_item_1, query_item_2, ...],
                default_subquery_branch: SubqueryBranch
                    subquery_path: Optional<key>
                    subquery_value: Optional<Query>
                conditional_subquery_branches: Map<QueryItem, SubqueryBranch>
                        

需要路径来定义查询的起始上下文。

SizeQuery

sized_query 确定了结果集将如何被限制。它包含可选的限制和偏移值。 limit 确定结果集的最大大小,而 offset 指定了在添加到结果集之前要跳过的元素数量。

Query

query 对象是一个递归结构 - 它指定了如何从当前子树中选择节点,并且可以选择递归地将另一个查询应用于上一个查询得到的结果集。

Items

items 是一组查询项集合,这些查询项决定了从当前上下文中选择哪些节点(这构建了一个结果集)。

在描述 default_subquery_branchconditional_subquery_branches 之前,我们需要定义它们的构建块,即子查询分支

子查询分支

    subquery_path: Optional<Key>
    subquery_value: Optional<Query>

情况

  • subquery_path: truesubquery_value: false
    选择具有子查询路径的节点并将其作为结果集返回。

  • subquery_path: falsesubquery_value: true
    将子查询_value 中的查询直接应用于子树,并将结果作为结果集返回。

  • subquery_path: truesubquery_value: true 首先选择具有子查询路径的节点并将其设置为新的上下文。
    然后,将子查询值应用于这个新的上下文,并将结果作为结果集返回。

子查询分支用于单个节点,但可以使用 default_subquery_branchconditional_subquery_branches 将其应用于先前查询的结果集。

default_subquery_branch

如果存在,则将指定的子查询分支应用于先前查询的结果集中的每个节点。

conditional_subquery_branch

而不是将子查询分支应用于结果集中的每个节点,您可能只想将其应用于结果集的一个子集。在这种情况下,我们使用条件子查询。

条件子查询包含一个映射 QueryItem 到 SubqueryBranch 的映射。

    Map<QueryItem, SubqueryBranch>

对于结果集中的每个节点,我们检查是否存在匹配该节点的查询项。如果存在,则将该节点关联的子查询分支应用于该节点。请注意,一旦条件子查询已应用于节点,则默认子查询不会在该节点上运行。

合并路径查询

本节描述了 GroveDB 如何处理路径查询的合并。

可合并路径查询允许将执行不同操作的单独路径查询组合成一个等效的路径查询。

路径查询可以表示为一组键(子树的路径)和一个要应用于该子树的查询(查询可以具有未知深度)

pi = [k1, k2, .., kn, Query]

非常重要的一点是,路径查询链可以在任何点进行压缩,即您可以将一系列键转换为单个查询。

考虑 p1 = [k1, k2, k3]。这表示为

  • 从根树中,选择键为 k1 的节点
  • 将上下文更改为 k1,然后选择键为 k2 的节点
  • 将上下文更改为 k2,最后选择键为 k3 的节点

我们可以创建一个等效的查询来表示这个过程,其形式可能如下

    Query
        query k1
        cond on k1
            query k2
            cond on k2
                query k3
                cond on k3

[k1, k2, k3] => Q1,其中 Q1 等同于路径数组。

这也可以在任何路径数组的点上进行,因此我们可以有

[k1, k2, k3] => [k1, Q2]
[k1, k2, k3] => [K1, K2 Q3]

路径合并算法变为

  • 找到路径查询之间的公共路径
  • 压缩每个路径数组到公共路径索引之后的查询
  • 将压缩后的查询合并为一个查询
  • 返回新的路径查询,公共路径作为路径,组合查询作为查询

示例
p1 = [k1, k2, k3, Qa]
p2 = [k1, k2, k4, Qb]

公共路径 = [k1, k2]

在公共路径之后压缩每个路径数组
p1 = [k1, k2, Qc]
p2 = [k1, k2, Qd]

合并压缩后的查询
Qp = Qc + Qd

返回最终的 PathQuery
pf = [k1, k2, Qp]

用法

GroveDB 是为与 Dash 平台一起使用而构建的,但可以轻松集成到其他应用程序中进行类似的使用。请参阅其在 rs-drive (示例) 中的使用。

我们目前也提供了 Node.js 的绑定。请参阅 node-grove

构建

首先,使用您首选的方法安装 rustup

构建需要 Rust 夜间版本,请确保您使用的是正确版本。

rustupinstall nightly

克隆存储库并导航到主目录

gitclone https://github.com/dashevo/grovedb.git && cdgrovedb

从这里我们可以构建

cargobuild

grovedbg

有一个用于 GroveDB 的调试层的工作中实现。要使用此库并启用这些功能,需要设置具有 grovedbg 功能的依赖项。

然后,为了在端口上启动可视化工具以观察浏览器中的数据库结构,例如端口 10000,以下代码片段应该可以

    let db = Arc::new(GroveDb::open("db").unwrap());
    db.start_visualzier(10000);

只需记住使用 Arc,因为 HTTP 服务器可能会比 GroveDB 实例持续时间更长。

性能

使用 cargo test

CPU 时间
Raspberry Pi 4 2m58.491s
R5 1600AF 33.958s
R5 3600 25.658s

lib.rs:

可视化

依赖关系

~475KB