1个不稳定版本
0.1.0 | 2019年12月18日 |
---|
23 在 #reddit
12KB
264 行
此工具的功能
它将来自PushShift的JSON数据集分割成更小的JSON文件。
目前,数据可以按以下键分割
- Subreddit
- 作者
- 月份中的某一天
- 月份
分割数据时,为每个唯一键创建一个JSON文件,因此如果分割在subreddit上,则每个subreddit创建一个JSON文件。
示例用法
- 构建代码
~/dev/rust/axe (master)
abhijat $ cargo build --release
- 运行代码
~/dev/rust/axe (master)
abhijat $ cargo run -- --input-path ~/Downloads/R --output-prefix ~/tmp/data-by-sub --split-on subreddit
Finished dev [unoptimized + debuginfo] target(s) in 0.02s
Running `target/debug/axe --input-path /home/abhijat/Downloads/R --output-prefix /home/abhijat/tmp/data-by-sub --split-on subreddit`
...
上述运行完成后,文件将位于~/tmp/data-by-sub
。
帮助
~/dev/rust/axe (master)
abhijat $ cargo run -- --help
Finished dev [unoptimized + debuginfo] target(s) in 0.01s
Running `target/debug/axe --help`
axe 0.1.0
A utility to split a reddit dataset into individual JSON files
USAGE:
axe --input-path <input-path> --output-prefix <output-prefix> --split-on <split-on>
FLAGS:
-h, --help Prints help information
-V, --version Prints version information
OPTIONS:
-i, --input-path <input-path> The path to the data set
-o, --output-prefix <output-prefix> The parent directory where output JSON files will be written
-s, --split-on <split-on> The attribute to split the data set on
依赖关系
~4.5MB
~83K SLoC