#reddit #dump #search #tool #io #command #pushshift

app reddit-search

pushshift.io Reddit 数据库的搜索工具

34 个版本 (9 个破坏性更新)

0.10.0 2024年4月22日
0.8.4 2024年2月20日
0.8.1 2023年11月29日

#64 in 命令行工具

Download history 3/week @ 2024-04-28 10/week @ 2024-05-19 1/week @ 2024-05-26 1/week @ 2024-06-02

每月 2,085 次下载

MIT 许可证

32KB
602

reddit-search

一个用 Rust 编写的搜索 pushshift Reddit 数据库的工具。可通过 crates.io 使用 cargo install reddit-search 安装。

如果您没有 cargo 或 rustc,请按照官方 Rust 文档中概述的步骤操作:https://www.rust-lang.net.cn/tools/install

数据库可通过此处提供的种子文件下载: https://academictorrents.com/details/7c0645c94321311bb05bd879ddee4d0eba08aaee

使用方法

要查看命令行参数,请使用 reddit-search -h 或 --help

示例用法命令

基本用法

reddit-search --input <input file path> --output <output file path> --fields <field:value> ...

预设

预设名称 描述
en_news 专注于全球和地区新闻及当前事件的子版块。
en_politics 覆盖各种政治讨论、幽默和模因的子版块,包括一般政治和特定政治倾向。
en_science 致力于一般科学、科学探究和对科学进步的讨论的子版块。
en_hate_speech 以推广仇恨言论和争议性内容而闻名的子版块。
controversial 在各个主题中具有高争议性的内容。

每个预设都是一系列旨在针对特定主题的过滤器集合。如果您对此感兴趣并希望添加更多过滤器,请随时与我联系。

Reddit 数据库中包含的字段描述

请注意,并非所有数据都包含所有这些字段(例如,2007 年的评论就不会有 "gilded" 字段,因为该系统是在后来才实施的。)

布尔值以数字形式保存(0 为假,1 为真)

字段 描述
archived 表示项目是否已存档的布尔值
id 项目的唯一标识符
controversiality 表示项目是否具有争议性的布尔值
body 项目的文本内容
ups 赞的数量
score_hidden 表示分数是否隐藏的布尔值
edited 表示项目是否已被编辑的布尔值
distinguished 项目的状态(例如,null,moderator)
created_utc 项目创建的 UTC 时间戳
name 另一个唯一标识符 (?)
镀金 表示物品被镀金次数的数字
分数 物品的总分数
subreddit_id subreddit的标识符
link_id 评论链接的标识符
author_flair_text 作者徽章的文本
subreddit subreddit的名称
retrieved_on 物品检索的UTC时间戳
parent_id 父项的标识符
downs 下载数
author_flair_css_class 作者徽章的CSS类
author 作者名称

版本控制

旧版本的程序可以使用cargo的版本覆盖进行下载。标签不会传递到GitHub。

免责声明

"reddit-search"是一个独立的开源工具,用于搜索Reddit帖子评论的Zstandard(zst)存档。它与Reddit,Inc.无关,未获得其授权、认可、支持或以任何方式正式联系。在此项目中使用Reddit名称和相关商标仅用于描述目的。商标和产品名称属于其各自的所有者,他们与该项目无关,不支持也不赞助"reddit-search"。该项目是在公平使用和开源合作原则下开发的。

依赖项

~8–16MB
~184K SLoC