4个版本 (2个稳定版本)

2.0.0 2024年8月24日
1.0.0 2024年7月28日
1.0.0-rc.22024年7月12日
1.0.0-rc.12023年6月26日

#947数据库接口

Download history 5/week @ 2024-05-19 1/week @ 2024-05-26 5/week @ 2024-06-09 1/week @ 2024-06-16 3/week @ 2024-06-23 1/week @ 2024-06-30 106/week @ 2024-07-07 40/week @ 2024-07-14 19/week @ 2024-07-21 269/week @ 2024-07-28 74/week @ 2024-08-04 45/week @ 2024-08-11

每月411次下载
3 crate 中使用

MIT 许可证

46KB
844

GroveDB

分支 测试 覆盖率
master Tests codecov

高效的二级索引查询的分层认证数据结构

GroveDB是一个专门为高效二级索引查询、证明、速度和可靠性设计的数据库系统。它为Dash平台的使用而构建,但可以轻松集成到其他应用中。

动机

二级索引对任何数据库管理系统都至关重要。所有之前的解决方案在解决特定问题时都有一定的权衡。

考虑一个认证数据结构,例如基于餐厅数据库构建的Merkle树。每个餐厅都有某些属性,如价格和类型

struct Restaurant{
	ID uint32;
	name: String;
	type: String;
	isVegan: bool;
};

如果我们有四个餐厅,我们可能会将它们按照如下方式提交到Merkle树中

graph TD;
root-->A[" "];
root-->B[" "];
A-->AA["id:0"];
A-->AB["id:1"];
B-->AC["id:2"];
B-->AD["id:3"];

通过主键查询既简单又高效。如果我们有一个查询,如 SELECT * WHERE ID <= 2; ,我们可以返回适当的元素并构建一个高效的证明。但是,通过二级索引查询并不高效;你很可能会遍历整个结构。考虑查询 SELECT * WHERE isVegan=true;。当按主键排序时,素食餐厅不会连续。这不仅证明非平凡,而且找到这些元素所需的时间也会很长。

GroveDB 是一种经典的时间空间权衡。它通过预计算和提交来支持对次级索引的高效查询。每个可能的可查询次级索引的子树(最多到一定限制)都会被构建并提交到我们的认证数据结构中。子树的树状结构;一个森林。对于相同的数据,类似的 GroveDB 结构可能看起来像这样

graph TD;
root-->A["\'Restaurant\'"];
root-->B["..."];
A-->Q["ID"];
A-->W["name"];
A-->E["kind"];
A-->R["isVegan"];
Q-->Z["..."];
W-->X["..."];
E-->C["..."];
R-->Y["id:2"];
R-->U["id:1"];
R-->I["id:0"];
R-->O["id:3"];

从这里,对次级索引 isVegan 的查询会遍历为该次级索引构建的子树。项目不一定被复制,而是被引用。

特性

  • 高效的次级索引查询 - 专门为次级索引查询构建和定制。
  • 证明 - 支持成员资格证明、非成员资格证明和范围证明。
  • 运行在任何地方 - 使用 Rust 编写,支持所有编译目标。x86、树莓派(AArch64)和 Wasm。还有 Node.js 绑定。

架构

插入和删除操作与预期一样,更新相应的子树,并返回适当的成员资格/非成员资格证明。

树结构

我们选择一个统一的;基于 具有分层认证数据结构的数据库外包 的分层、认证数据结构,而不是分离的认证数据结构。元素是最基本的部件,可以以几种方式表示。它们可以是项目、项目引用、树、带有项目的树,甚至是带有项目引用的树。一个元素包含一个项目、一个对象的引用或一个子树。

这些树基于我们的 Merk 分支,并针对与 GroveDB 更好的使用应用了自定义补丁。Merk 的独特之处在于它是一个 AVL 树,所以中间节点也包含一个键/值对。每个节点包含第三个哈希,即 kv_hash,除了其左右子节点的哈希之外。 kv_hash 简单地计算为 kv_hash=H(key,value)。然后计算节点哈希为 H(kv_hash,left_child_hash,right_child_hash)。Merk 使用 Blake2B,而 rs-merkle 使用 SHA256。

存储

RocksDB 是一个键值存储,由 LevelDB 分支并由 Facebook 构建。我们选择它是因为其高性能、成熟度和与我们的堆栈兼容性。Merk 本身建立在 RocksDB 之上。

我们有三种类型的存储:辅助存储、元数据和树根存储。辅助存储用于存储不用于共识的纯键值数据。元数据用于存储 GroveDB 使用范围之外的东西。它没有前缀,因此与子树没有关系。它位于更高层次。树根存储用于存储子树。

GroveDB 中的数据库事务是围绕 RocksDB 的 OptimisticTransactionDB 原语的一个包装器。乐观事务希望平均只有少量冲突,这些冲突在提交阶段被检测到。这与使用锁的悲观模型相比。

查询

要查询 GroveDB,必须提供路径和查询项目。路径指定子树,而查询项目确定从子树中选择哪些节点。

GroveDB 目前支持 10 种查询项目类型

  • 键(key_name)
  • 范围(start..end)
  • 范围包含(start..=end)
  • 范围全(..)
  • 范围从(start..)
  • 范围到(..end)
  • 范围包含到(..=end)
  • 范围之后(prev..)
  • 范围之后到(prev..end)
  • 范围之后包含到(prev..=end)

这描述了一个基本的查询系统:选择一个子树然后从该子树中选择节点。可能需要创建更复杂的查询或添加对结果集的限制,这导致我们转向 PathQuery

PathQuery

PathQuery 允许进行更复杂的查询,并且可以对结果集进行可选的限制,即限制和偏移量。

    PathQuery
        path: [k1, k2, ..]
        sized_query: SizedQuery
            limit: Optional<number>
            offset: Optional<number>
            query: Query
                items: [query_item_1, query_item_2, ...],
                default_subquery_branch: SubqueryBranch
                    subquery_path: Optional<key>
                    subquery_value: Optional<Query>
                conditional_subquery_branches: Map<QueryItem, SubqueryBranch>
                        

需要一个路径来定义查询的起始上下文。

SizeQuery

sized_query 确定了结果集的限制方式。它包含可选的限制和偏移量值。limit 确定结果集的最大大小,而 offset 指定了在添加到结果集之前要跳过的元素数量。

Query

query 对象是一个递归结构——它指定如何从当前子树中选择节点,并可以选择递归地将另一个查询应用于之前查询得到的结果集。

Items

items 是一组查询项集合,它决定了从当前上下文中选择哪些节点(这构建了一个结果集)。

在描述 default_subquery_branchconditional_subquery_branches 之前,我们需要定义它们的构建块,即子查询分支

子查询分支

    subquery_path: Optional<Key>
    subquery_value: Optional<Query>

情况

  • subquery_path: truesubquery_value: false
    选择带有子查询路径的节点并将其作为结果集返回。

  • subquery_path: falsesubquery_value: true
    将子查询_value 中的查询直接应用于子树,并将结果作为结果集返回。

  • subquery_path: truesubquery_value: true 首先,选择带有子查询路径的节点并将其设置为新的上下文。
    然后,将子查询值应用于这个新的上下文,并将结果作为结果集返回。

子查询分支用于单个节点,但可以通过使用 default_subquery_branchconditional_subquery_branches 将其应用于先前查询的结果集。

default_subquery_branch

如果存在,则将指定的子查询分支应用于先前查询结果集中的每个节点。

conditional_subquery_branch

而不是将子查询分支应用于结果集中的每个节点,您可能只想将其应用于结果集的一个子集。在这种情况下,我们使用条件子查询。

条件子查询包含一个从 QueryItem 到 SubqueryBranch 的映射。

    Map<QueryItem, SubqueryBranch>

对于结果集中的每个节点,我们检查是否存在一个与它匹配的查询项。如果存在,则将相关的子查询分支应用于该节点。请注意,一旦条件子查询已应用于一个节点,则默认子查询不会在该节点上运行。

合并路径查询

本节描述了 GroveDB 如何处理路径查询的合并。

可合并的路径查询允许将执行不同操作的单独路径查询组合成一个等效的路径查询。

路径查询可以表示为一组键(到子树的路径)以及应用于该子树的查询(查询可以有未知深度)

pi = [k1, k2, .., kn, Query]

需要展示的一个重要内容是,路径查询链可以在任何点压缩,即可以将一系列键转换为单个查询。

考虑 p1 = [k1, k2, k3]。这表示

  • 从根树中选择具有键 k1 的节点
  • 将上下文更改为 k1,然后选择具有键 k2 的节点
  • 将上下文更改为k2,并最终选择键为k3的节点

我们可以创建一个等效的查询来表示这个,它可以看起来像这样

    Query
        query k1
        cond on k1
            query k2
            cond on k2
                query k3
                cond on k3

[k1, k2, k3] => Q1,其中Q1等同于路径数组。

这也可以在任何路径数组点进行,所以我们可以有

[k1, k2, k3] => [k1, Q2]
[k1, k2, k3] => [K1, K2 Q3]

路径合并算法变为

  • 找到路径查询中的公共路径
  • 在公共路径索引之后压缩每个路径数组
  • 将压缩后的查询合并为单个查询
  • 返回具有公共路径作为路径和组合查询作为查询的新路径查询

示例
p1 = [k1, k2, k3, Qa]
p2 = [k1, k2, k4, Qb]

公共路径 = [k1, k2]

在公共路径之后压缩每个路径数组
p1 = [k1, k2, Qc]
p2 = [k1, k2, Qd]

合并压缩后的查询
Qp = Qc + Qd

返回最终的PathQuery
pf = [k1, k2, Qp]

用法

GroveDB是为与Dash平台一起使用而构建的,但可以轻松集成到其他应用程序中用于类似用途。请参阅其在rs-drive示例)中的使用。

我们目前还有Node.js的绑定。请参阅node-grove

构建

首先,使用您首选的方法安装rustup

构建需要Rust nightly版本,请确保您使用的是正确的版本。

rustup安装nightly

克隆存储库并导航到主目录

gitclone https://github.com/dashevo/grovedb.git && cdgrovedb

从这里我们可以构建

cargobuild

grovedbg

有一个GroveDB调试层的工作进行中实现。要使用此库并启用这些功能,需要设置带有grovedbg功能的依赖项。

然后,要启动可视化工具以在端口上观察浏览器中的数据库结构,比如10000端口,以下代码片段应该可以做到

    let db = Arc::new(GroveDb::open("db").unwrap());
    db.start_visualzier(10000);

只需记住使用Arc,因为HTTP服务器可能会比GroveDB实例持续时间更长。

性能

使用以下命令运行cargo test

CPU 时间
Raspberry Pi 4 2m58.491s
R5 1600AF 33.958s
R5 3600 25.658s

lib.rs:

GroveDB子树路径操作库。

无运行时依赖项