数据处理

lib.rs不仅仅显示crates.io的数据。许多crate的元数据不完整,例如缺少分类或关键词,这有助于找到crate。有时crate作者指定的元数据是错误的(例如,解析分类的目的是经常被误解,或者被分叉的crate的仓库链接仍然指向上游仓库而不是分叉,等等)。crates.io计数的下载次数没有任何限制或反垃圾邮件措施,因此它们受到来自网络爬虫和未缓存的CI构建的自动化下载的偏见。

为了使搜索更好地工作,并且crate页面显示更多有用的信息,lib.rs将crates.io的数据与github.com、docs.rs、rustsec.org、rustaceans.org、cargo-crev仓库、cargo-vet注册表以及自己的数据集和分析数据相结合。这意味着组合的数据不仅来自crate作者,而且应理解为lib.rs的解释,而不是crate作者意图的内容。

lib.rs经常使用启发式方法来完成和修复数据。大多数数据质量问题都报告在维护者仪表板上。

未来可能会扩展源和算法列表。有关排名和过时依赖项的逻辑也请参阅。