17个版本 (8个稳定版)

1.6.0	2024年7月30日
1.5.0	2024年6月26日
1.2.1	2024年1月22日
1.2.0	2023年11月17日
0.7.0	2022年6月22日

#232 在编码

23,637 每月下载量
用于 9 个crate（6个直接使用）

MIT 协议

125KB
1.5K SLoC

jaq

jaq（发音类似于 Jacques）是JSON数据处理工具jq的一个克隆。jaq旨在支持jq的大部分语法和操作。

您可以在jaq游乐场上尝试jaq。游乐场的说明可以在这里找到。

jaq专注于三个目标

正确性：jaq旨在提供比jq更正确、更可预测的实现，同时大多数情况下与jq保持兼容。
一些令人惊讶的jq行为示例
- nan > nan 为假，而 nan < nan 为真。
- [[]] | implode 会使jq崩溃，尽管从五年前就已经知道了这个问题，但该问题在撰写本文时仍未修复。
- 《jq 手册》声称，limit(n; exp)可以从exp中提取最多n个输出。这对于n > 1的值有效，例如，jq -n '[limit(2; 1, 2, 3)]'将产生[1, 2]，但当n == 0时，jq -n '[limit(0; 1, 2, 3)]'将产生[1]而不是[]。甚至更糟糕的是，当n < 0时，limit将产生所有来自exp的输出，而这并未在文档中说明。
性能：我最初创建jaq是因为我对jq的长时间启动时间感到烦恼，在我的机器上大约需要50毫秒。这在处理大量小文件时尤为明显。jaq的启动速度比jq 1.6快约30倍，并且在许多其他基准测试中也优于jq。
简洁性：jaq旨在拥有简单且小巧的实现，以减少潜在的错误并便于贡献。

我从另一个Rust程序中获得了灵感，即jql。然而，与jql不同，jaq旨在尽可能模仿jq的语法和语义。这应该使用户能够轻松地使用jaq。

[^jacques]：我希望创建一个像好服务员一样低调而乐于助人的工具。当我想到一个典型的（法国）服务员的名字时，我的脑海中浮现出“Jacques”。后来，我了解到古老的法语单词jacquet，意为“松鼠”，为这个名字提供了一个很好的事后灵感。

安装

二进制文件

您可以在发行页面上下载Linux、Mac和Windows的二进制文件。

您还可以在macOS或Linux上使用homebrew安装jaq

$ brew install jaq
$ brew install --HEAD jaq # latest development version

或在Windows上使用scoop安装jaq

$ scoop install main/jaq

从源码

要编译jaq，您需要一个Rust工具链。有关说明，请参阅https://rustup.rs/。（请注意，随Linux发行版提供的Rust编译器可能过于过时，无法编译jaq。）

以下任一命令都可以安装jaq

$ cargo install --locked jaq
$ cargo install --locked --git https://github.com/01mf02/jaq # latest development version

在我的系统中，这两个命令都将可执行文件放在~/.cargo/bin/jaq。

如果您已克隆此存储库，您也可以通过执行克隆存储库中的命令之一来构建jaq。

$ cargo build --release # places binary into target/release/jaq
$ cargo install --locked --path jaq # installs binary

jaq应在Rust支持的任何系统上运行。如果不行，请提交一个问题。

示例

以下示例应给出jaq当前可以做什么的印象。您应该通过将jaq替换为jq来获得相同的输出。如果不是这样，您提交问题将会受到赞赏。 :) 语法在jq手册中有所说明。

访问字段

$ echo '{"a": 1, "b": 2}' | jaq '.a'
1

添加值

$ echo '{"a": 1, "b": 2}' | jaq 'add'
3

以两种方式从对象构造一个数组并显示它们是相等的

$ echo '{"a": 1, "b": 2}' | jaq '[.a, .b] == [.[]]'
true

对数组的所有元素应用过滤器并过滤结果

$ echo '[0, 1, 2, 3]' | jaq 'map(.*2) | [.[] | select(. < 5)]'
[0, 2, 4]

将输入值读入数组并计算其元素的平均值

$ echo '1 2 3 4' | jaq -s 'add / length'
2.5

反复应用过滤器并输出中间结果

$ echo '0' | jaq '[recurse(.+1; . < 3)]'
[0, 1, 2]

懒折叠输入并输出中间结果

$ seq 1000 | jaq -n 'foreach inputs as $x (0; . + $x)'
1 3 6 10 15 [...]

性能

以下评估包括几个基准测试，可以比较jaq、jq和gojq的性能。空基准测试（empty）运行n次带有null输入的过滤器empty，用于测量启动时间。bf-fib基准测试运行用jq编写的Brainfuck解释器，解释一个生成n个斐波那契数的Brainfuck脚本。其他基准测试使用n作为输入评估各种过滤器；有关详细信息，请参阅bench.sh。

我在一个搭载AMD Ryzen 5 5500U的Linux系统上使用bench.sh target/release/jaq jq-1.7 gojq-0.1213 jq-1.6 | tee bench.json生成基准数据。然后我用一个“一串行”处理结果（这个词有点延伸，这行也有点长）

jq -rs '.[] | "|`\(.name)`|\(.n)|" + ([.time[] | min | (.*1000|round)? // "N/A"] | min as $total_min | map(if . == $total_min then "**\(.)**" else "\(.)" end) | join("|"))' bench.json

（当然，您也可以在这里用jaq代替jq。）最后，我将表头与输出连接起来，并通过pandoc -t gfm传递。

[^binaries]：jq-1.7.1和gojq-0.12.15的二进制文件是从它们的GitHub发布页面获取的，jq-1.6的二进制文件是从标准的Ubuntu存储库安装的。

表：评估结果（超过10秒则为“N/A”）。

基准测试	n	jaq-1.4	jq-1.7.1	gojq-0.12.15	jq-1.6
`empty`	512	610	660	740	8310
`bf-fib`	13	470	1220	570	1440
`reverse`	1048576	50	680	270	650
`sort`	1048576	140	550	580	680
`group-by`	1048576	400	1890	1550	2860
`min-max`	1048576	210	320	250	350
`add`	1048576	520	640	1310	730
`kv`	131072	170	140	220	190
`kv-update`	131072	190	540	440	N/A
`kv-entries`	131072	630	1150	830	1120
`ex-implode`	1048576	510	1100	610	1090
`reduce`	1048576	820	890	N/A	860
`try-catch`	1048576	180	320	370	670
`tree-flatten`	17	730	360	10	480
`tree-update`	17	560	970	1330	1190
`tree-paths`	17	470	250	880	460
`to-fromjson`	65536	30	370	120	390
`ack`	7	530	700	1230	620
`range-prop`	128	280	310	210	590

结果表明，jaq-1.4在15个基准测试中表现最快，而jq-1.7.1在2个基准测试中表现最快，gojq-0.12.15也在2个基准测试中表现最快。gojq在tree-flatten上要快得多，因为它实现了过滤器flatten的原生实现而不是通过定义实现。

功能

以下是总结

已实现的功能，以及
尚未实现的功能。

欢迎为扩展jaq做出贡献。

基础

恒等（.）
递归（..）
基本数据类型（null，布尔值，数字，字符串，数组，对象）
if-then-else 语句（if .a < .b then .a else .b end）
折叠（reduce .[] as $x (0; . + $x)，foreach .[] as $x (0; . + $x; . + .)）
错误处理（try ... catch ...）（参见与 jq 的区别）
字符串插值（"The successor of \(.) is \(.+1)."）
格式字符串（@json，@text，@csv，@tsv，@html，@sh，@base64，@base64d）

路径

数组/对象的索引（.[0]，.a，.["a"]）
遍历数组/对象（.[]）
可选索引/迭代（.a?，.[]?）
数组切片（.[3:7]，.[0:-1]）
字符串切片

运算符

组合（|）
绑定（. as $x | $x）
连接（,）
普通赋值（=）
更新赋值（|=，+=，-=）
交替（//）
逻辑运算（or，and）
等式与比较（.a == .b，.a < .b）
算术（+，-，*，/，%）
取反（-）
错误抑制（?）

定义

基本定义（def map(f): [.[] | f];）
递归定义（def r: r; r）

核心过滤器

空（empty）
错误（error）
输入（inputs）
长度（length，utf8bytelength）


四舍五入（floor，round，ceil）
字符串与JSON之间的转换（fromjson，tojson）
字符串与整数之间的转换（explode，implode）
字符串规范化（ascii_downcase，ascii_upcase）
字符串前缀/后缀（startswith，endswith，ltrimstr，rtrimstr）
字符串分割（split("foo")）
数组过滤器（reverse，sort，sort_by(-.)，group_by，min_by，max_by）
流消费者（first，last，range，fold）
流生成器（range，recurse）
时间（now，fromdateiso8601，todateiso8601）
更多数值过滤器（sqrt，sin，log，pow，...）（数值过滤器列表）
更多时间过滤器（strptime，strftime，strflocaltime，mktime，gmtime，和 localtime）


标准过滤器
这些过滤器是通过更基本的过滤器定义的。它们的定义在 std.jq。

未定义（null）
布尔值（true，false，not）
特殊数字（nan，infinite，isnan，isinfinite，isfinite，isnormal）
类型（type）
过滤操作（select(. >= 0)）
选择操作（values、nulls、booleans、numbers、strings、arrays、objects、iterables、scalars）
转换操作（tostring、tonumber）
可迭代过滤操作（map(.+1)、map_values(.+1)、add、join("a")）
数组过滤操作（transpose、first、last、nth(10)、flatten、min、max）
对象-数组转换操作（to_entries、from_entries、with_entries）
全称/存在量词操作（all、any）
递归操作（walk）
输入/输出操作（input）
正则表达式操作（test、scan、match、capture、splits、sub、gsub）
时间操作（fromdate、todate）

数字过滤操作
jaq 从 libm 中导入了许多过滤操作，并遵循它们的类型签名。
jaq 中定义的数字过滤操作完整列表
无参数过滤操作

 acos
 acosh
 asin
 asinh
 atan
 atanh
 cbrt
 cos
 cosh
 erf
 erfc
 exp
 exp10
 exp2
 expm1
 fabs
 frexp，返回（浮点数，整数）对。
 ilogb，返回整数。
 j0
 j1
 lgamma
 log
 log10
 log1p
 log2
 logb
 modf，返回（浮点数，浮点数）对。
 nearbyint
 pow10
 rint
 significand
 sin
 sinh
 sqrt
 tan
 tanh
 tgamma
 trunc
 y0
 y1

忽略 . 的双参数过滤操作

 atan2
 copysign
 drem
 fdim
 fmax
 fmin
 fmod
 hypot
 jn，第一个参数为整数。
 ldexp，第二个参数为整数。
 nextafter
 nexttoward
 pow
 remainder
 scalb
 scalbln，第二个参数为整数。
 yn，第一个参数为整数。

忽略 . 的三参数过滤操作

 fma


高级特性
jaq 目前不打算支持 jq 的几个特性，如

模块
SQL 风格的操作符
流式处理

jq 和 jaq 的区别
数字
jq使用64位浮点数（floats）表示任何数字。相比之下，jaq将诸如0或-42这样的数字解释为机器大小的整数，将诸如0.0或3e8这样的数字解释为64位浮点数。在jaq中，许多操作，如数组索引，都会检查传入的数字是否真的是整数。背后的动机是为了避免可能导致错误结果的舍入误差。例如
$ jq  -n '[0, 1, 2] | .[1.0000000000000001]'
1
$ jaq -n '[0, 1, 2] | .[1.0000000000000001]'
Error: cannot use 1.0 as integer
$ jaq -n '[0, 1, 2] | .[1]'
1

jaq的规则如下

两个整数的和、差、积和余数仍然是整数。
两个数字之间的任何其他运算都产生浮点数。

示例
$ jaq -n '1 + 2'
3
$ jaq -n '10 / 2'
5.0
$ jaq -n '1.0 + 2'
3.0

您可以通过添加0.0、乘以1.0或除以1来将整数转换为浮点数。您可以通过round、floor或ceil将浮点数转换为整数。
$ jaq -n '1.2 | [floor, round, ceil]'
[1, 1, 2]

NaN和无穷大
在jq中，除以0有一些令人惊讶的性质；例如，0 / 0会产生nan，而0 as $n | $n / 0会产生一个错误。在jaq中，n / 0，如果n == 0，则产生nan；如果n > 0，则产生infinite；如果n < 0，则产生-infinite。jaq的行为更接近浮点数算术的IEEE标准（IEEE 754）。
jaq在浮点数上实现了一个全序，以允许排序值。因此，它不幸地必须强制执行nan == nan。而jq通过强制执行nan < nan来解决这个问题，这打破了全序的基本定律。
与jq一样，jaq将nan和infinite打印为null，因为在JSON中不支持将这些值编码为数字。
保留分数数
jaq完美地保留了来自JSON数据的分数数（只要它们没有用于某些算术操作），而jq 1.6可能默默地将其转换为64位浮点数
$ echo '1e500' | jq '.'
1.7976931348623157e+308
$ echo '1e500' | jaq '.'
1e500

因此，与jq 1.6不同，jaq满足jq手册中的以下段落

关于身份过滤器的一个重要观点是，它保证保留值的字面十进制表示。当处理无法无损转换为IEEE754双精度表示的数字时，这一点尤为重要。

请注意，jq的新版本，例如1.7，似乎也保留了字面十进制表示。
赋值
与jq一样，jaq允许使用p |= f形式的赋值。但是，jaq对这些赋值的解释不同。幸运的是，在大多数情况下，结果是一样的。
在jq中，赋值p |= f首先构建匹配p的所有值的路径。然后，它将这些值应用于过滤器f。
在jaq中，赋值p |= f立即将f应用于任何匹配p的值。与jq不同，赋值不明确构建路径。
jaq 的实现方式在分配时可能带来更高的性能，因为它不构建路径。此外，这也避免了 jq “按设计”中的几个错误。例如，给定过滤器 [0, 1, 2, 3] | .[] |= empty，jq 输出 [1, 3]，而 jaq 输出 []。这里发生了什么？
jq 首先构建与 .[] 对应的路径，即 .0, .1, .2, .3。然后，它删除这些路径上的每个元素。然而，每次删除都会 改变 剩余路径所引用的值。也就是说，删除 .0（值为 0）后，.1 不再指向值 1，而是值 2！这也是为什么值 1（以及随之而来的值 3）没有被删除的原因。

在 jq 中还有更多奇怪的行为；例如，0 | 0 |= .+1 在 jq 中输出 1，尽管 0 不是一个有效的路径表达式。然而，1 | 0 |= .+1 会产生错误。在 jaq 中，任何此类赋值都会产生错误。

jaq 尝试使用右侧表达式的多个输出，而 jq 只使用第一个。例如，0 | (., .) |= (., .+1) 在 jaq 中输出 0 1 1 2，而在 jq 中仅输出 0。然而，{a: 1} | .a |= (2, 3) 在 jaq 和 jq 中都输出 {"a": 2}，因为一个对象只能与任何给定的键关联一个值，所以我们不能在这里有意义地使用多个输出。

由于jaq不构建路径，它不允许在赋值左侧使用某些过滤器，例如 first、last、limit：例如，[1, 2, 3] | first(.[]) |= .-1 在jq中会得到 [0, 2, 3] 的结果，但在jaq中是无效的。同样，[1, 2, 3] | limit(2; .[]) |= .-1 在jq中会得到 [0, 1, 3] 的结果，但在jaq中是无效的。（顺便提一下，jq也不允许使用last。）
定义
与jq类似，jaq允许定义过滤器，例如
def map(f): [.[] | f];

参数也可以通过值传递，例如
def cartesian($f; $g): [$f, $g];

过滤器定义可以是嵌套和递归的，即引用自身。也就是说，可以在jaq中定义类似于 recurse 的过滤器
def recurse(f): def r: ., (f | r); r;

从jaq 1.2版本开始，jaq像jq一样优化了尾调用。从jaq 1.1版本开始，递归过滤器也可以有非变量参数，就像在jq中一样。例如
def f(a): a, f(1+a);

具有非变量参数的递归过滤器可能会产生令人惊讶的效果；例如，一个 f(0) 的调用会构建形状为 f(1+(..(1+0)...)) 的调用，这会导致指数级执行时间。

具有非变量参数的递归过滤器通常可以通过以下方式之一实现

嵌套过滤器：例如，而不是使用以下代码：def walk(f): (.[]? |= walk(f)) | f;，你可以使用以下代码：def walk(f): def rec: (.[]? |= rec) | f; rec;。
带有可变参数的过滤器：例如，而不是使用以下代码：def f(a): a, f(1+a);，你也可以用以下代码来写：def f($a): $a, f(1+$a);。
带有 recurse 的过滤器：例如，你可以这样写 def f(a): a | recurse(1+.);。如果你期望你的过滤器递归深度很大，建议使用 recurse 来实现，因为 jaq 对 recurse 有一个优化的实现。

jaq 支持所有这些选项。
参数
与 jq 类似，jaq 允许通过命令行定义参数，特别是通过选项 --arg、--rawfile、--slurpfile。这会将变量绑定到值，对于通过这种方式绑定到 $x 的每个变量 v，$ARGS.named 包含一个键为 x 且值为 v 的条目。例如
$ jaq -n --arg x 1 --arg y 2 '$x, $y, $ARGS.named'
"1"
"2"
{
  "x": "1",
  "y": "2"
}

折叠
jq 和 jaq 提供了过滤器 reduce xs as $x (init; f) 和 foreach xs as $x (init; f)。
在 jaq 中，这些过滤器的输出定义得很简单：假设 xs 的评估结果为 x0、x1、...、xn，reduce xs as $x (init; f) 的评估结果为
init
| x0 as $x | f
| ...
| xn as $x | f

并且以下代码 foreach xs as $x (init; f) 的结果为：
init
| x0 as $x | f | (.,
| ...
| xn as $x | f | (.,
empty)...)

此外，jaq 提供了过滤器 for xs as $x (init; f)，其结果为：
init
| ., (x0 as $x | f
| ...
| ., (xn as $x | f
)...)

foreach 和 for 的区别在于，for 会返回 init 的输出，而 foreach 则省略了它。例如，foreach (1, 2, 3) as $x (0; .+$x) 的结果是 1, 3, 6，而 for (1, 2, 3) as $x (0; .+$x) 的结果是 0, 1, 3, 6。
jaq 中对 reduce/foreach 的解释相对于 jq 具有以下优势：


它可以非常自然地处理产生多个输出的过滤器。相比之下，jq 只在最后一个上递归，尽管它输出所有的输出。
示例
foreach (5, 10) as $x (1; .+$x, -.) 在 jq 中产生 6, -1, 9, 1，而在 jaq 中则产生 6, 16, -6, -1, 9, 1。我们可以看到，jq 和 jaq 都产生了由第一次迭代（其中 $x 为 5）产生的值 6 和 -1，即 1 | 5 as $x | (.+$x, -.)。然而，jq 仅在第一次迭代返回的最后一个值上执行第二次迭代（其中 $x 为 10），即 -1，产生了由 -1 | 10 as $x | (.+$x, -.) 产生的值 9 和 1。jaq 也产生了这些值，但它还在第一次迭代返回的所有其他值上执行第二次迭代，即 6，产生了由  6 | 10 as $x | (.+$x, -.) 产生的值 16 和 -6。




这使得 reduce 和 foreach 成为相同代码的特殊情况，从而降低了出现错误的可能性。


与foreach ...相比，过滤器for ...（其中...指的是xs as $x (init; f)）与reduce有更强的关联。特别是，reduce ...产生的值是for ...产生的值的子集。如果你将for替换为foreach，则不成立。
示例
例如，如果我们设置...为empty as $x (0; .+$x)，那么foreach ...不产生任何值，而for ...和reduce ...产生0。


此外，jq提供了过滤器foreach xs as $x (init; f; proj)（foreach/3）并将foreach xs as $x (init; f; .)（foreach/2）解释为foreach xs as $x (init; f; .)，而jaq不提供foreach/3，因为它需要与foreach/2和reduce在解析器和解释器中完全不同的逻辑。

错误处理
在jq中，try f catch g表达式在出现错误时立即跳出f流，之后将控制权交给g。这在它的手册中作为跳出控制结构的可能机制之一被提及（这里）。然而，jaq不会中断f流，而是将每个发出的错误值发送到g过滤器；结果是，错误发生时，从f发出的值和从g发出的值相互交织。
考虑以下示例：这个表达式在jq中是true，因为第一个error(2)中断了流
[try (1, error(2), 3, error(4)) catch .] == [1, 2]

然而，在jaq中，这成立
[try (1, error(2), 3, error(4)) catch .] == [1, 2, 3, 4]

杂项

吸管模式：当使用（通过 -s / --slurp 选项）将文件吸管输入时，jq 将所有文件的输入合并成一个单一的数组，而 jaq 为每个文件生成一个数组。这是由 - / --in-place 选项所驱动的，该选项无法与 jq 实现的行为一起工作。jaq 可以近似 jq 的行为；例如，为了实现 jq -. a b 的输出，你可以使用 jaq -. <(cat a b)。

笛卡尔积：在 jq 中，[(1,2) * (3,4)] 的结果是 [3, 6, 4, 8]，而 [{a: (1,2), b: (3,4)} | .a * .b] 的结果是 [3, 4, 6, 8]。jaq 在这两种情况下都产生 [3, 4, 6, 8]。
索引 null：在 jq 中，当给定 null 输入时，.["a"] 和 .[0] 的结果是 null，但 .[] 的结果是错误。jaq 在所有情况下都会产生错误以防止意外索引 null 值。为了在 jq 和 jaq 中获得相同的行为，你可以使用 .["a"]? // null 或 .[0]? // null 代替。
列表更新：在jq中，[0, 1] | .[3] = 3的结果是[0, 1, null, 3]；也就是说，如果更新超出列表大小，jq会用null填充列表。相比之下，在这种情况下，jaq会因越界错误而失败。
输入读取：当没有更多的输入值时，在jq中，input会引发错误，而在jaq中，它不会产生输出值。
连接：当给定数组[x0, x1, ..., xn]时，在jq中，join(x)将输入数组的所有元素转换为字符串，并用x将它们交错连接，而在jaq中，join(x)只是计算x0 + x + x1 + x + ... + xn。当输入数组的所有元素和x都是字符串时，jq和jaq会产生相同的输出。

贡献
欢迎对jaq的贡献。请确保在您的更改之后，cargo test运行成功。
致谢
本项目得到了通过NGI0 Entrust基金的支持，该基金由NLnet建立，并由欧洲委员会的Next Generation Internet计划提供资金支持，在DG Communications Networks, Content and Technology的指导下，根据资助协议编号N^o 101069594。
jaq还受益于

serde_json用于读取和colored_json用于输出JSON，
chumsky用于解析和ariadne用于格式化解析错误，
mimalloc用于提高内存分配的性能，以及
Rust标准库，特别是其出色的迭代器，它为jaq的过滤执行提供了坚实的基础



依赖项

~0.4–1MB


~22K SLoC



jaq-syn




 dev  jaq-core

 dev  jaq-interpret

 dev  serde_json