#web-crawler #spider #web-scraping #web-indexer

app spider-cloud-cli

Spider Cloud CLI - 用于网络爬虫和抓取

3个版本

新版本 0.1.2 2024年8月20日
0.1.1 2024年8月8日
0.1.0 2024年8月5日

Web编程 中排名第 187

Download history 173/week @ 2024-08-02 52/week @ 2024-08-09 146/week @ 2024-08-16

每月下载量 371

MIT 许可证

16KB
215

Spider Cloud CLI

Spider Cloud CLI 是一个用于与 Spider Cloud 网络爬虫交互的命令行界面。它允许您通过简单的命令进行抓取、爬取、搜索以及执行其他各种网络相关任务。

安装

使用 homebrewcargocrates.io 安装 CLI

Homebrew

brew tap spider-rs/spider-cloud-cli
brew install spider-cloud-cli

Cargo

cargo install spider-cloud-cli

使用方法

安装后,您可以通过输入 spider-cloud-cli 后跟命令及其相应参数来使用 CLI。

身份验证

在使用大多数命令之前,您需要通过提供API密钥进行身份验证

spider-cloud-cli auth --api_key YOUR_API_KEY

命令

抓取

从指定的URL抓取数据。

spider-cloud-cli scrape --url http://example.com

爬取

爬取指定的URL,可选地限制页面数量。

spider-cloud-cli crawl --url http://example.com --limit 10

从指定的URL获取链接。

spider-cloud-cli links --url http://example.com

截图

对指定的URL进行截图。

spider-cloud-cli screenshot --url http://example.com

搜索查询。

spider-cloud-cli search --query "example query"

转换

转换指定数据。

spider-cloud-cli transform --data "sample data"

提取联系人信息

从指定的URL提取联系人信息。

spider-cloud-cli extract_contacts --url http://example.com

标记

标记指定URL的数据。

spider-cloud-cli label --url http://example.com

获取爬取状态

获取指定URL的爬取状态。

spider-cloud-cli get_crawl_state --url http://example.com

查询

查询指定域的记录。

spider-cloud-cli query --domain example.com

获取积分

获取账户剩余积分。

spider-cloud-cli get_credits

许可证

本项目采用 MIT 许可证。有关详细信息,请参阅 LICENSE 文件。

贡献

欢迎提交问题和拉取请求!如果您有任何问题或建议,请随时查看 问题页面

鸣谢

特别感谢本项目使用的库和工具的开发者和贡献者。

依赖项

~7–19MB
~282K SLoC