#scraping #manga #webtoon #manhwa #web-crawler #manhua

hyraigne

网络爬虫,用于抓取各种漫画网站

5 个版本

0.1.4 2021 年 4 月 7 日
0.1.3 2021 年 3 月 25 日
0.1.2 2021 年 3 月 19 日
0.1.1 2021 年 3 月 18 日
0.1.0 2021 年 3 月 18 日

#18#manga


用于 bibe

BSD-3-Clause

290KB
2K SLoC

Hyraigne

License

Hyraigne 是一个库,提供网络爬虫(又称网络爬虫)以抓取像 webtoons.commangadex.org 这样的网站,并帮助您从那里下载章节。

用法

以下是一个简单的示例,从 webtoons.com 下载系列

use url::Url;

fn main() {
    let url = Url::parse("https://www.webtoons.com/en/fantasy/tower-of-god/list?title_no=95")
        .expect("invalid URL");
    let opts = hyraigne::Options::new(1000, 3, "/home/me/Webtoons".into());
    let filter = hyraigne::Filter::new(0..=u16::MAX, None, Vec::new());
    let spider = hyraigne::get_spider_for(&url, opts).expect("unsupported URL");

    let series = spider.get_series(&url)
        .expect("failed to scrape series info");
    let chapters = spider.get_chapters(&series, filter)
        .expect("failed to scrape chapter list");

    spider.mkdir(&chapters).expect("failed to setup workdir");
    for chapter in chapters {
        let pages = spider.get_pages(&chapter)
            .expect("failed to scrape page list");
        spider.download(&pages)
            .expect("failed to download pages");
    }
}

支持网站

关于名称

“Hyraigne” 是一个古老的法语单词,意为“蜘蛛”。

依赖项

~10–18MB
~262K SLoC