34 个版本 (9 个破坏性更新)
0.10.0 | 2024年4月22日 |
---|---|
0.8.4 | 2024年2月20日 |
0.8.1 | 2023年11月29日 |
#64 in 命令行工具
每月 2,085 次下载
32KB
602 行
reddit-search
一个用 Rust 编写的搜索 pushshift Reddit 数据库的工具。可通过 crates.io 使用 cargo install reddit-search
安装。
如果您没有 cargo 或 rustc,请按照官方 Rust 文档中概述的步骤操作:https://www.rust-lang.net.cn/tools/install
数据库可通过此处提供的种子文件下载: https://academictorrents.com/details/7c0645c94321311bb05bd879ddee4d0eba08aaee
使用方法
要查看命令行参数,请使用 reddit-search -h 或 --help
示例用法命令
基本用法
reddit-search --input <input file path> --output <output file path> --fields <field:value> ...
预设
预设名称 | 描述 |
---|---|
en_news |
专注于全球和地区新闻及当前事件的子版块。 |
en_politics |
覆盖各种政治讨论、幽默和模因的子版块,包括一般政治和特定政治倾向。 |
en_science |
致力于一般科学、科学探究和对科学进步的讨论的子版块。 |
en_hate_speech |
以推广仇恨言论和争议性内容而闻名的子版块。 |
controversial |
在各个主题中具有高争议性的内容。 |
每个预设都是一系列旨在针对特定主题的过滤器集合。如果您对此感兴趣并希望添加更多过滤器,请随时与我联系。
Reddit 数据库中包含的字段描述
请注意,并非所有数据都包含所有这些字段(例如,2007 年的评论就不会有 "gilded" 字段,因为该系统是在后来才实施的。)
布尔值以数字形式保存(0 为假,1 为真)
字段 | 描述 |
---|---|
archived | 表示项目是否已存档的布尔值 |
id | 项目的唯一标识符 |
controversiality | 表示项目是否具有争议性的布尔值 |
body | 项目的文本内容 |
ups | 赞的数量 |
score_hidden | 表示分数是否隐藏的布尔值 |
edited | 表示项目是否已被编辑的布尔值 |
distinguished | 项目的状态(例如,null,moderator) |
created_utc | 项目创建的 UTC 时间戳 |
name | 另一个唯一标识符 (?) |
镀金 | 表示物品被镀金次数的数字 |
分数 | 物品的总分数 |
subreddit_id | subreddit的标识符 |
link_id | 评论链接的标识符 |
author_flair_text | 作者徽章的文本 |
subreddit | subreddit的名称 |
retrieved_on | 物品检索的UTC时间戳 |
parent_id | 父项的标识符 |
downs | 下载数 |
author_flair_css_class | 作者徽章的CSS类 |
author | 作者名称 |
版本控制
旧版本的程序可以使用cargo的版本覆盖进行下载。标签不会传递到GitHub。
免责声明
"reddit-search"是一个独立的开源工具,用于搜索Reddit帖子评论的Zstandard(zst)存档。它与Reddit,Inc.无关,未获得其授权、认可、支持或以任何方式正式联系。在此项目中使用Reddit名称和相关商标仅用于描述目的。商标和产品名称属于其各自的所有者,他们与该项目无关,不支持也不赞助"reddit-search"。该项目是在公平使用和开源合作原则下开发的。
依赖项
~8–16MB
~184K SLoC