#web-crawler #web-scraping #web-page #cli #rustcrawler

程序 seaward

seaward 是一种爬虫,用于在网站上搜索链接或指定的词

4 个稳定版本

1.0.3 2024 年 2 月 23 日
1.0.2 2024 年 2 月 6 日
1.0.1 2023 年 7 月 13 日

#967命令行工具

每月 41 次下载

MIT 许可证

495KB
317

🌊 seaward

crates.io

安装

cargo install seaward

在 NetBSD 上,官方仓库中有预编译的二进制文件。要安装它,只需运行

pkgin install seaward

Alpine Linux 软件包也可在 testing 仓库中找到

apk add seaward

概述

Seaward 用于发现网页上(及其链接的网页)的每个链接,没有重复,或者从给定的 URL 开始搜索一个词。

如果您想将链接保存到文件中,可以运行 seaward <URL> --silent > file.txt,如果遇到很多超时错误,请尝试使用更高的超时时间与 -t。使用 -d 0 选项,您将只爬取通过 <URL> 参数传入的网页,使用 -d 1 也包括链接到的页面(始终在同一网站上)等等。

用法

seaward -h

这将显示每个选项。

seaward: 1.0.0

seaward is a crawler which searches for links or a specified word in a website.
Use -h for short descriptions and --help for more details.

Project home page: https://github.com/M3nny/seaward


Usage: seaward [OPTIONS] <URL>

Arguments:
  <URL>  Base url to start with.

Options:
  -w, --word <WORD>    Case insensitive word to search.
  -d, --depth <DEPTH>  Set how many times a link has to be followed.
      --silent         Display output only.
  -h, --help           Print help (see more with '--help')
  -V, --version        Print version

Timeout:
  -t, --timeout <TIMEOUT>  Set a request timeout in seconds (default: 3s).
      --warmup <WARMUP>    Set how many requests to make to find the best timeout automatically.

示例

Example_url

Example_word

依赖关系

~13–29MB
~420K SLoC