1 个不稳定版本

0.1.0	2021年5月5日

#1488 in 开发工具

用于 verilization-compiler-cli

GPL-3.0-only

135KB
3.5K SLoC

Verilization

Verilization 是一种为定义二进制文件格式而设计的序列化描述语言。与其他序列化工具（如 Protocol Buffers）不同，序列化的 Verilization 数据不具有向前或向后兼容性。相反，从旧版本格式转换为当前格式变得容易，这使得数据更紧凑，并能够更好地控制数据的底层结构。

目标

Verilization 有以下主要目标。

将文件格式的最大控制权交给用户
以语言无关的方式定义格式
支持从旧版本格式轻松转换

其他较低层次的目标。

支持大整数类型
无需使用本地二进制文件即可在其他语言中嵌入

类型

以下类型得到支持。

类型	编码
`struct` 类型	按照顺序编码每个字段的编码
`enum` 类型	一个标签（与 `nat` 的编码格式相同）后跟表示标签的字段的编码
`extern` 类型	由目标语言编写的代码定义

结构体

使用多个版本定义 struct 类型。每个版本定义一系列字段。

struct Rectangle {
    version 1 {
        width: u32;
        height: u32;
    }
}

枚举

使用多个版本定义 enum 类型。每个版本定义一系列用作案例的字段。枚举值正好由这些字段中的一个组成。

struct StringOrInt {
    version 1 {
        str: string;
        num: int;
    }
}

外部

使用用户代码定义 extern 类型。类型定义、转换和编解码器必须在目标语言中实现。

extern 类型可以声明可以用于该类型的字面量。

extern MyString {
    literal {
        string;
    }
}

支持以下字面量规范。

名称	示例	语法	说明
整数	整数[0, 256)	`'整数'左括号整数字面量? ','整数字面量?右括号` 其中 `左括号 : '['	'('`和`右括号 : ']'
字符串	`字符串`	`'字符串'`	字符串的内容不能被限制。
序列	`序列 T`	`'序列'类型表达式`	定义特定类型的序列。
情况	`情况正数()`	`'情况'标识符'(' [类型表达式{ ','类型表达式} ] ')'`	定义一个情况。如果名称不同，可以指定多个情况字面量。
记录	`记录{a:A;b:B; }`	`'记录' '{' {标识符':'类型表达式';' } '}'`	定义一个记录。

运行时库类型

运行库提供了许多 extern 类型。

类型	字面量	编码
`{i,u}{8,16,32,64}`	类型范围内的整数	小端序的字节固定宽度序列
`int`	整数	一个可变长度的格式
`nat`	非负整数	与 `int` 相似的格式，但没有符号位
`字符串`	字符串	一个长度 `nat`，后跟一个指定长度的 UTF-8 字节序列
`list T`	T 的序列	一个长度 `nat`，后跟一个 `T` 的序列
`option T`	两个情况 `some(x)` 和 `none()`	一个字节 `b`。如果 `b` 非零，则其后跟一个 `T`

int 和 nat 的编码定义了一个小端序位序列。每个字节的最高位如果数字中有更多字节则被设置。

这种编码是一个字节序列 [B₀, ..., B_n]，其中当 i < n 时 B_i,7 = 1，B_n,7 = 0。这个字节序列等效于一个位序列 [B_0,0, ... B_0,6, ..., B_n-1,0, ..., B_n-1,6] = [b₀, ..., b_m-1]，其中 m = 6n。本质上，位序列去除了用于确定序列何时结束的标志位，并将每个字节的剩余位从最低到最高排序。位序列映射如下

对于 int 类型，如果 b_m-1 = 0，则 k = b₀ * 2⁰ + ... + b_{m - 2} * 2^m-2
对于 int 类型，如果 b_m-1 = 1，则 k = -(b₀ * 2⁰ + ... + b_{m - 2} * 2^m-2) - 1
对于 nat 类型，k = b₀ * 2⁰ + ... + b_{m - 1} * 2^m-1

版本控制

在下面的示例中，用户有一个用户名和出生日期。

struct Person {
    version 1 {
        name: Name;
        dob: Date;
    }
}

struct Name {
    version 1 {
        firstName: string;
        middleName: option string;
        lastName: string;
    }
}

然而，并非每个人都有两个或三个名字。为了适应这种情况，我们可以创建一个新的版本，允许任意数量的名字。

struct Name {
    version 1 {
        ...
    }
    version 2 {
        names: list string;
    }
}

对 Name 的这种修改意味着在格式的第 2 版中，Person 的 name 字段将现在使用 Name 的第 2 版。然而，由于没有对 Person 的直接修改，版本 2 是自动创建的。在生成的代码中，用户需要提供将 Name 从版本 1 升级到版本 2 的代码。但是，没有必要为升级 Person 提供这样的代码。 Person 可以使用其字段的升级代码自动升级。

最终

版本化类型可以被声明为final，以指示不会添加该类型的新版本。这限制了类型到最后一个显式声明的版本，防止自动生成新版本。最终类型可能只包括最终或非版本化类型的字段。

final struct FormatVersion {
    version 1 {
        major: nat;
    }
}

泛型

泛型类型允许类型进行参数化。

final struct Pair(A, B) {
    version 1 {
        left: A;
        right: B;
    }
}

常量

常量允许定义在生成的任何语言之间共享的值。

文字	示例	用法
整数	`88`	`extern`类型与`integer`文字
字符串	`"你好，世界"`	`extern`类型与`string`文字
序列	`[a,b,c]`	`extern`类型与`sequence`文字
记录	`{x= 1;y= 2; }`	`struct`类型和`extern`类型与`record`文字
情况	`名称(a)`	`enum`类型和`extern`类型与`case Name`文字

命令行

Verilization具有命令行界面。以下选项被支持。

语言生成器

以下语言被支持。

编译器绑定

verilization编译器是用Rust编写的。它可以编译成WebAssembly，用于其他语言。这有一个优点，即工具可以分发（例如，作为NPM包、独立JAR等），而不需要任何本地二进制文件。这些绑定公开了一个可以从运行时直接使用的界面，以及一个仅依赖于相关运行时的命令行界面。

目前，以下运行时有绑定。

Node

依赖项

~2.5MB
~56K SLoC