17 个稳定版本 (3 个主要版本)
4.0.1 | 2024 年 3 月 28 日 |
---|---|
3.9.0 | 2023 年 11 月 13 日 |
3.8.0 | 2023 年 10 月 31 日 |
3.5.2 | 2023 年 9 月 23 日 |
1.3.0 | 2023 年 5 月 21 日 |
70 在 数据库实现 中排名
每月 630 次下载
195KB
5K SLoC
kgdata

KGData 是一个处理维基百科、维基数据的库。它能做什么
- 清理存档以确保数据一致性(解决重定向,删除悬空引用)
- 创建嵌入式键值数据库以访问存档中的实体。
- 提取维基数据本体。
- 提取维基百科表格并将超链接转换为维基数据实体。
- 创建 Pyserini 索引以搜索维基数据的实体。
- 等等
有关完整文档,请参阅 网站。
安装
从 PyPI(使用预构建的二进制文件)
pip install kgdata[spark] # omit spark to manually specify its version if your cluster has different version
依赖项
~48–80MB
~1.5M SLoC