1 个不稳定版本
0.0.1 | 2024年5月30日 |
---|
#15 in #stories
用于 2 crates
210KB
2K SLoC
progscrape
progscrape.com 是一个用于 Hacker News、Reddit、Lobste.rs 和 Slashdot 的爬虫。它包含一个简单的排名/标记引擎,试图在首页保持有趣故事的混合。
Rust
Rust 代码分为三个项目
每个子项目的文档将在某个时候可用。
运行
初始化服务器索引
SERVER_LOG="debug,tantivy=info" cargo run -- initialize --persist-path target/index --root=.
从一组备份爬取中加载
SERVER_LOG="debug,tantivy=info" cargo run -- initialize --persist-path target/index --root=. backup/????-??.json
在 CloudFlare 访问隧道后面运行服务器
SERVER_LOG="debug,tantivy=info" cargo run -- serve --auth-header 'cf-access-authenticated-user-email'
在本地主机上独立运行服务器
SERVER_LOG="debug,tantivy=info" cargo run -- serve --fixed-auth-value 'username@example.com'
历史
该应用程序之前设计为在 Google AppEngine 上运行,负载足够低,可以保持在免费层。我们做了大量的缓存,并尽可能避免交互性,使其成为可能。当前运行的 最后 Python 版本 仍在 Python 2.7 上运行,仅因为 Python 3.x 在 AppEngine 上是一个很大的任务。
Android
还有一个开源的 Android 应用。
依赖关系
~7–10MB
~190K SLoC