#statistics #plot #data #data-science

bin+lib datasaurust

《数据海浪》论文的飞速实现

1个不稳定版本

0.1.0 2023年4月10日

#746科学

MITLGPL-3.0

36KB
612 代码行

CI

数据海浪Rust

《数据海浪》论文(比原始版本快500倍)的飞速实现:“通过模拟退火生成外观各异且统计相同的数据集:‘相同的统计,不同的图表:通过模拟退火生成外观各异且统计相同的数据集’”由Justin Matejka和George Fitzmaurice撰写。

用法

使用plot -p(使用gnuplot)运行

cargo run --release -- -d data/seed_datasets/Datasaurus_data.csv -p

使用预定义形状

cargo run --release -- -p -n 3000000 --decimals 2 --shape cat --allowed-distance 0.1

从高斯噪声开始

cargo run --release -- -p -n 3000000 --decimals 2 --shape cat --allowed-distance 0.1 --gaussian

创建视频

创建视频和gif(使用--save-plot

pip install moviepy ffmpeg-python

python scripts/create_video.py logs/cat/ logs/cat.mp4

从一个形状到另一个形状

cargo run --release -- -p -n 2000000 --decimals 1 --shape dog --allowed-distance 0.1 --log-interval 10000 -d logs/gaussian_cat/output.csv --save-plots

注意:原始数据集和Python代码来自http://www.autodeskresearch.com/papers/samestats

依赖项

~5–14MB
~189K SLoC