#split #json #key #dataset #reddit #data #subreddit

app axe

根据各种键分割Reddit数据集的工具

1个不稳定版本

0.1.0 2019年12月18日

23#reddit

MIT 许可证

12KB
264

此工具的功能

它将来自PushShift的JSON数据集分割成更小的JSON文件。

目前,数据可以按以下键分割

  • Subreddit
  • 作者
  • 月份中的某一天
  • 月份

分割数据时,为每个唯一键创建一个JSON文件,因此如果分割在subreddit上,则每个subreddit创建一个JSON文件。

示例用法
  • 构建代码
~/dev/rust/axe  (master) 
 abhijat $ cargo build --release
  • 运行代码
~/dev/rust/axe  (master) 
 abhijat $ cargo run -- --input-path ~/Downloads/R --output-prefix ~/tmp/data-by-sub --split-on subreddit
    Finished dev [unoptimized + debuginfo] target(s) in 0.02s
     Running `target/debug/axe --input-path /home/abhijat/Downloads/R --output-prefix /home/abhijat/tmp/data-by-sub --split-on subreddit`
...

上述运行完成后,文件将位于~/tmp/data-by-sub

帮助
~/dev/rust/axe  (master) 
 abhijat $ cargo run -- --help
    Finished dev [unoptimized + debuginfo] target(s) in 0.01s
     Running `target/debug/axe --help`
axe 0.1.0
A utility to split a reddit dataset into individual JSON files

USAGE:
    axe --input-path <input-path> --output-prefix <output-prefix> --split-on <split-on>

FLAGS:
    -h, --help       Prints help information
    -V, --version    Prints version information

OPTIONS:
    -i, --input-path <input-path>          The path to the data set
    -o, --output-prefix <output-prefix>    The parent directory where output JSON files will be written
    -s, --split-on <split-on>              The attribute to split the data set on

依赖关系

~4.5MB
~83K SLoC