1 个稳定版本
新功能 2.0.0 | 2024年8月24日 |
---|
在 数据结构 类别中排名 #225
每月下载量 108 次
用于 grovedb
125KB
2.5K SLoC
GroveDB
分支 | 测试 | 覆盖率 |
---|---|---|
master |
具有高效二级索引查询的分层认证数据结构
GroveDB是一个专门为高效二级索引查询、证明、速度和可靠性设计的数据库系统。它为 Dash平台 设计,但可以轻松集成到其他类似应用中。
动机
二级索引对任何数据库管理系统都至关重要。所有之前的解决方案都根据它们试图解决的问题存在某些权衡。
考虑一个认证数据结构,例如基于餐厅数据库的Merkle树。每个餐厅都有某些属性,例如价格和类型
struct Restaurant{
ID uint32;
name: String;
type: String;
isVegan: bool;
};
如果我们有四个餐厅,我们可能会像下面这样将它们提交到Merkle树中
graph TD;
root-->A[" "];
root-->B[" "];
A-->AA["id:0"];
A-->AB["id:1"];
B-->AC["id:2"];
B-->AD["id:3"];
通过主键查询既简单又高效。如果我们有一个如下的查询 SELECT * WHERE ID <= 2;
,我们不仅可以返回适当元素,还可以构建高效的区间证明。然而,通过次级索引进行查询则完全不高效;你很可能需要遍历整个结构。考虑以下查询 SELECT * WHERE isVegan=true;
。当按主键排序时,素食餐厅不会连续。不仅证明过程不简单,而且查找这些元素所需的时间也很长。
GroveDB 是一个经典的时空权衡。它通过预计算和提交次级索引来启用高效的次级索引查询。为每个可能的可查询次级索引(最多到某个限制)构建并提交到我们的认证数据结构。这是子树树状结构;一个森林。对于相同的数据,类似的 GroveDB 结构可能如下所示
graph TD;
root-->A["\'Restaurant\'"];
root-->B["..."];
A-->Q["ID"];
A-->W["name"];
A-->E["kind"];
A-->R["isVegan"];
Q-->Z["..."];
W-->X["..."];
E-->C["..."];
R-->Y["id:2"];
R-->U["id:1"];
R-->I["id:0"];
R-->O["id:3"];
从这里,对次级索引 isVegan
的查询将遍历为该次级索引构建的子树。项目不一定被复制,而是被引用。
特性
- 高效的次级索引查询 - 专门为次级索引查询构建和定制。
- 证明 - 支持成员证明、非成员证明和范围证明。
- 运行在任何地方 - 由于是用 Rust 编写的,它支持所有编译目标。x86、树莓派(AArch64)和 Wasm。还有 Node.js 绑定。
架构
插入和删除操作按预期进行,更新相应的子树,并返回适当的成员/非成员证明。
树结构
我们选择一个统一的;一个基于 Database Outsourcing with Hierarchical Authenticated Data Structures 的分层认证数据结构。元素是最基本的组成部分,可以用几种方式表示。它们可以是项目、项目引用、树、带有项目的树,甚至带有项目引用的树。一个元素包含一个项目、一个对象的引用或一个子树。
树是基于我们的 Merk 分支构建的,并针对与 GroveDB 更好的使用应用了自定义补丁。Merk 的独特之处在于它是一个 AVL 树,因此中间节点也包含一个键/值对。每个节点包含第三个哈希,即 kv_hash
,除了其左右子节点的哈希之外。kv_hash
简单地计算为 kv_hash=H(key,value)
。然后节点哈希计算为 H(kv_hash,left_child_hash,right_child_hash)
。Merk 使用 Blake2B,rs-merkle 使用 SHA256。
存储
RocksDB 是一个键值存储,从 LevelDB 分叉并由 Facebook 构建。我们选择它是因为其高性能、成熟度以及与我们堆栈的兼容性。Merk 本身是建立在 RocksDB 之上的。
我们有三种类型的存储:辅助存储、元数据和树根存储。辅助存储用于存储不用于共识的纯键值数据。元数据用于存储 GroveDB 作用域之外的内容。它没有前缀,因此与子树无关。它处于更高的层次。树根存储用于存储子树。
在GroveDB中,数据库事务是对RocksDB中的OptimisticTransactionDB
原始操作的封装。乐观事务希望平均情况下只有少量冲突,这些冲突在提交阶段被检测到。这与使用锁的悲观模型相比。
查询
要查询GroveDB,需要提供路径和查询项。路径指定了子树,而查询项则确定从子树中选择哪些节点。
GroveDB目前支持10种查询项类型
- 键(key_name)
- 范围(start..end)
- 范围包含(start..=end)
- 范围全[..)
- 范围从(start..)
- 范围到[..end)
- 范围包含到[..=end)
- 范围之后(prev..)
- 范围到之后(prev..end)
- 范围包含到之后(prev..=end)
这描述了一个基本的查询系统:选择子树然后从该子树中选择节点。可能需要创建更复杂的查询或对结果集添加限制,这导致了PathQuery的出现。
PathQuery
PathQuery
允许进行更复杂的查询,并可以对结果集进行可选的限制,即限制和偏移。
PathQuery
path: [k1, k2, ..]
sized_query: SizedQuery
limit: Optional<number>
offset: Optional<number>
query: Query
items: [query_item_1, query_item_2, ...],
default_subquery_branch: SubqueryBranch
subquery_path: Optional<key>
subquery_value: Optional<Query>
conditional_subquery_branches: Map<QueryItem, SubqueryBranch>
需要路径来定义查询的起始上下文。
有大小查询(SizedQuery)
sized_query
确定如何限制结果集。它包含可选的限制和偏移值。《code>limit确定结果集的最大大小,《code>offset指定在将元素添加到结果集之前要跳过的元素数量。
查询(Query)
query
对象是一个递归结构 - 它指定如何从当前子树中选择节点,并可以选择递归地将另一个查询应用于前一个查询的结果集。
项(Items)
items
是查询项的集合,这些查询项决定从当前上下文中选择哪些节点(这构建了一个结果集)。
在描述default_subquery_branch
和conditional_subquery_branches
之前,我们需要定义它们的构建块,即子查询分支。
子查询分支(Subquery Branches)
subquery_path: Optional<Key>
subquery_value: Optional<Query>
情况(Cases)
-
subquery_path: true
,subquery_value: false
选择具有子查询路径的节点,并将其作为结果集返回。 -
subquery_path: false
,subquery_value: true
直接将子查询值应用于子树,并将结果作为结果集返回。 -
subquery_path: true
,subquery_value: true
首先选择具有子查询路径的节点,并将其设置为新的上下文。
然后,将子查询值应用于这个新上下文,并将结果作为结果集返回。
子查询分支用于单个节点,但可以使用default_subquery_branch和conditional_subquery_branches将其应用于前一个查询的结果集。
default_subquery_branch
如果存在,则将指定的子查询分支应用于前一个查询结果集中的每个节点。
conditional_subquery_branch
而不是将子查询分支应用于结果集中的每个节点,您可能希望将其应用于结果集的一个子集。在这种情况下,我们使用条件子查询。
条件子查询包含一个查询项到子查询分支的映射。
Map<QueryItem, SubqueryBranch>
对于结果集中的每个节点,我们检查是否存在匹配它的查询项。如果存在,则将关联的子查询分支应用于该节点。请注意,一旦条件子查询应用于一个节点,默认子查询就不会再运行在该节点上。
合并路径查询(Merging Path Queries)
本节描述了GroveDB如何处理路径查询的合并。
可合并的路径查询允许将执行不同操作的单独路径查询组合成单个等效路径查询。
路径查询可以表示为一组键(子树路径)以及应用于该子树的查询(查询可以具有未知深度)。
pi = [k1, k2, .., kn, 查询]
需要特别指出的是,路径查询链可以在任何位置进行压缩,即可以将一系列键转换为一个查询。
考虑 p1 = [k1, k2, k3]。这表示为
- 从根树中选择键为 k1 的节点
- 将上下文更改为 k1,然后选择键为 k2 的节点
- 将上下文更改为 k2,并最终选择键为 k3 的节点
我们可以创建一个等效查询来表示这一点,它可能看起来像这样
Query
query k1
cond on k1
query k2
cond on k2
query k3
cond on k3
[k1, k2, k3] => Q1,其中 Q1 等价于路径数组。
这也可以在任何路径数组的点上进行,因此我们可以有
[k1, k2, k3] => [k1, Q2]
[k1, k2, k3] => [K1, K2 Q3]
路径合并算法如下
- 找到路径查询之间的公共路径
- 在公共路径索引之后压缩每个路径数组
- 将压缩后的查询合并为单个查询
- 返回以公共路径为路径、合并查询为查询的新路径查询
示例
p1 = [k1, k2, k3, Qa]
p2 = [k1, k2, k4, Qb]
公共路径 = [k1, k2]
在公共路径之后压缩每个路径数组
p1 = [k1, k2, Qc]
p2 = [k1, k2, Qd]
合并压缩查询
Qp = Qc + Qd
返回最终的 PathQuery
pf = [k1, k2, Qp]
使用方法
GroveDB是为与Dash平台一起使用而构建的,但可以轻松集成到其他应用程序中进行类似的使用。请参见其在 rs-drive(《示例》)中的使用。
我们目前还有Node.js的绑定。请参阅 node-grove。
构建
首先,使用您首选的方法安装 rustup。
构建需要Rust nightly版本,因此请确保您使用的是正确版本。
rustup安装nightly
克隆仓库并导航到主目录
gitclone https://github.com/dashevo/grovedb.git && cdgrovedb
从这里我们可以构建
cargobuild
grovedbg
正在为GroveDB实现一个调试层的工作正在进展中。要使用具有这些功能启用的库,需要设置一个带有 grovedbg
特性的依赖项。
然后,要启动可视化工具以在浏览器上观察数据库结构,在一个端口上,比如10000,以下片段应该可以做到
let db = Arc::new(GroveDb::open("db").unwrap());
db.start_visualzier(10000);
请记住使用 Arc,因为HTTP服务器可能会超过GroveDB实例的寿命。
性能
使用 cargo test
运行
CPU | 时间 |
---|---|
树莓派4 | 2m58.491s |
R5 1600AF | 33.958s |
R5 3600 | 25.658s |
依赖项
~0.5–1MB
~24K SLoC