#知识图谱 #维基百科 #维基数据 #dbpedia

bin+lib kgdata

用于处理知识图谱(维基百科、DBpedia、Wikidata)存档的库

17 个稳定版本 (3 个主要版本)

4.0.1 2024 年 3 月 28 日
3.9.0 2023 年 11 月 13 日
3.8.0 2023 年 10 月 31 日
3.5.2 2023 年 9 月 23 日
1.3.0 2023 年 5 月 21 日

70数据库实现 中排名

Download history 3/week @ 2024-03-09 1/week @ 2024-03-16 131/week @ 2024-03-23 43/week @ 2024-03-30 4/week @ 2024-04-06

每月 630 次下载

自定义许可

195KB
5K SLoC

kgdata PyPI 文档

KGData 是一个处理维基百科、维基数据的库。它能做什么

  • 清理存档以确保数据一致性(解决重定向,删除悬空引用)
  • 创建嵌入式键值数据库以访问存档中的实体。
  • 提取维基数据本体。
  • 提取维基百科表格并将超链接转换为维基数据实体。
  • 创建 Pyserini 索引以搜索维基数据的实体。
  • 等等

有关完整文档,请参阅 网站

安装

从 PyPI(使用预构建的二进制文件)

pip install kgdata[spark]   # omit spark to manually specify its version if your cluster has different version

依赖项

~48–80MB
~1.5M SLoC