#xml-parser #csv #website #downloaded #uni-parc #relational #million

app biodata-parsers

将来自Uniprot网站的UniParc XML文件解析为CSV文件的脚本

1 个不稳定版本

使用旧的Rust 2015

0.1.0 2017年1月15日

#10 in #downloaded

MIT 许可证

46KB
1K SLoC

Rust 518 SLoC // 0.0% comments Python 502 SLoC // 0.1% comments

UniParc XML解析器

将来自UniProt网站下载的UniParc XML文件(uniparc_all.xml.gz)解析为可以加载到关系型数据库的CSV文件。

示例

解析100万行需要约5.5秒

$ mkdir uniparc
$ time bash -c "zcat tests/uniparc_1mil.xml.gz | uniparc_xml_parser >/dev/null"

real    0m5.564s
user    0m5.528s
sys     0m0.132s

实际的uniparc_all.xml.gz文件大约有50亿行。

依赖项

~405KB