11 个不稳定版本 (5 个破坏性版本)

0.7.0 2024 年 3 月 3 日
0.6.0 2023 年 9 月 27 日
0.5.0 2023 年 4 月 30 日
0.4.0 2023 年 2 月 3 日
0.1.1 2021 年 5 月 24 日

#77 in 性能分析

每月 28 次下载

Apache-2.0

60KB
1K SLoC

TPC 工具

用于并行调用 TPC-H 和 TPC-DS 数据生成器并在目录结构中重新组织输出文件的命令行工具,这些目录结构可以由 Apache Spark 或 Apache Arrow DataFusion/Ballista 等工具消费。

还支持将输出转换为 Parquet。

TPC-DS

安装依赖项。

sudo apt install gcc make flex bison byacc git

https://www.tpc.org/tpc_documents_current_versions/current_specifications5.asp 下载数据生成器

cd /path/to/DSGen-software-code-3.2.0rc1/tools
make

生成数据。

mkdir /tmp/tpcds/sf1000

cargo run --release -- generate --benchmark tpcds \
  --scale 1000 \
  --partitions 48 \
  --generator-path /path/to/DSGen-software-code-3.2.0rc1/tools \
  --output /tmp/tpcds/sf1000/

示例输出。

Generated TPC-DS data at scale factor 1000 with 48 partitions in: 6247.155671938s

转换为 Parquet

mkdir /tmp/tpcds/sf1000-parquet

cargo run --release -- convert --benchmark tpcds \
  --input /tmp/tpcds/sf1000/
  --output /tmp/tpcds/sf1000-parquet/

TPC-H

安装依赖项。

git clone git@github.com:databricks/tpch-dbgen.git
cd tpch-dbgen
make
cd ..

生成数据。

mkdir /tmp/tpch

cargo run --release -- generate --benchmark tpch \
  --scale 1 \
  --partitions 2 \
  --generator-path ./tpch-dbgen/ \
  --output /tmp/tpch

将数据转换为 Parquet

mkdir /tmp/tpch-parquet

cargo run --release -- convert \
  --benchmark tpch \
  --input /tmp/tpch/ \
  --output /tmp/tpch-parquet/

法律事务

TPC-H 版权所有 © 1993-2022 事务处理性能委员会。完整 TPC-H 规范的 PDF 格式可以在 这里 找到

TPC-DS 版权所有 © 2021 事务处理性能委员会。完整 TPC-DS 规范的 PDF 格式可以在 这里 找到

TPC、TPC 基准、TPC-H 和 TPC-DS 是事务处理性能委员会的商标。

依赖项

~61MB
~1M SLoC