#search #source #recursively #crawl #fashion #links #storkable

stork

简单的基于 futures 的库,以搜索引擎的方式递归抓取资源

3 个版本

0.0.3 2020年2月13日
0.0.2 2020年2月13日
0.0.1 2020年2月13日

#4 in #fashion


用于 stork_http

WTFPL OR 0BSD

10KB
123 行代码(不包括注释)

stork.rs

License: WTFPL Docs Downloads

stork 是一个简单的基于 futures 的库,以搜索引擎的方式递归抓取资源。stork 从底层设计就具有简单的 API,易于使用,并且可以跨多个协议重复使用,为最终用户提供进行 BFS、DFS 或任何他们可能希望进行搜索的自由。

当前的 API 非常不稳定,在它稳定之前可能需要经过多次修订,我会持续关注变更日志,但请在使用库时注意这一点。

我是一个白鹭。我有一个长长的脖子,我会用我的喙从水中捉鱼。如果你不 star 这个仓库和 10 个你喜欢的 Rust 仓库,我今晚就会飞到你厨房里,把你的锅碗瓢盆搞得一团糟

查看文档以获取 stork 的使用示例

或者查看 examples/ 目录中的真实示例!

storkcli

storkcli 是基于 stork 构建的。它可以用来使用各种过滤器抓取网站上的链接,尽管目前功能还比较基础,但 stork 给我们提供了构建这个 CLI 的能力,使其可以非常复杂。

用法

Usage: ./storkcli <url> [--max-depth <max-depth>]

Link hunter with a little bit of magic.

Options:
  --max-depth       specifies how deep we should go from the origin, leave this
                    value unspecified to recurse until there's nothing left to
                    follow.
  --help            display usage information

示例

$ ./storkcli "https://doyle.la/" --max-depth 0
 https://instagram.com/doyl_e
 https://linkedin.com/in/jordanjdoyle
 https://stackoverflow.com/users/2132800/jordan-doyle
 https://last.fm/user/doyle-
 https://github.com/w4
 mailto:[email protected]
 https://keybase.io/jrd

lib.rs:

stork 是一个简单的基于 futures 的库,以搜索引擎的方式递归抓取资源。stork 从底层设计就具有简单的 API,易于使用,并且可以跨多个协议重复使用,为最终用户提供进行 BFS、DFS 或任何他们可能希望进行搜索的自由。

您进入 stork 的入口点是 Storkable::new 函数。查看 [Storkable] 结构的文档,以了解您进入 stork 世界的途径。

注意:你可能不需要单独使用这个库,而是需要一个协议实现。下面是一些原始实现

依赖关系

~2.5MB
~54K SLoC