#gtf #dataframe #parser #ensembl #python #attributes #mbf

nightly mbf_gtf

Ensembl格式GTF文件的快速解析器,用于Pandas DataFrames

3个不稳定版本

使用旧的Rust 2015

0.2.0 2019年3月25日
0.1.4 2019年3月22日
0.1.3 2019年3月22日

#11 in #gtf

24 每月下载次数

MIT 许可证

18KB
377 代码行

mbf_gtf

可能是周围最快的Ensembl-GTF解析器(在我的系统上,读取1GB的人类GTF大约需要10秒)。

用法:mbf_gtf.parse_ensembl_gtf("filename.gtf", []) -> DataFrame的字典

文件可能使用gzip压缩 - 在这种情况下,它必须以".gz"结尾。

第二个参数可以是一个要检索的'features'列表 - 获取子集可以大大提高性能。

请注意,这非常特定于Ensembl,它不处理任何其他GTF格式,并且它丢弃了在子元素上重复的属性 - 即,外显子只有gene_id,没有gene_name、gene_version、gene_...

结果坐标是Pythonic的 - 即,从0开始(即从GTF中的值中减去-1)。

这是mbf_*生物信息学库系列的一部分。

依赖关系

~5MB
~99K SLoC