#archive #url #pdf #extract #pdf-file #machine #wayback

app archive-pdf-urls

从PDF文件中提取所有链接并将URL存档到互联网档案馆的Wayback Machine

6个版本

0.4.2 2024年8月8日
0.4.1 2024年6月17日
0.3.1 2024年5月31日
0.3.0 2024年3月27日
0.2.0 2024年3月27日

#568 in 文本处理

Download history 5/week @ 2024-05-02 1/week @ 2024-05-23 136/week @ 2024-05-30 12/week @ 2024-06-06 251/week @ 2024-06-13 49/week @ 2024-06-20

464次每月下载

Apache-2.0

48KB
591

存档PDF URL

这是一个命令行工具,可以从PDF文件中提取URL并将其存档到Wayback Machine。

Build status Crates.io

安装

您可以使用Cargo构建和安装此工具

cargo install archive-pdf-urls

用法

该工具从标准输入读取URL,每个URL一行,并使用Wayback Machine进行存档。

示例用法

archive-pdf-urls file.pdf --exclude https://some.pattern/\*

Docker使用方法

docker run --rm -v ./file.pdf:/file.pdf ghcr.io/thoth-pub/archive-pdf-urls file.pdf

依赖项

~24–40MB
~540K SLoC