3个不稳定版本
使用旧的Rust 2015
0.2.0 | 2019年3月25日 |
---|---|
0.1.4 | 2019年3月22日 |
0.1.3 | 2019年3月22日 |
#11 in #gtf
24 每月下载次数
18KB
377 代码行
mbf_gtf
可能是周围最快的Ensembl-GTF解析器(在我的系统上,读取1GB的人类GTF大约需要10秒)。
用法:mbf_gtf.parse_ensembl_gtf("filename.gtf", []) -> DataFrame的字典
文件可能使用gzip压缩 - 在这种情况下,它必须以".gz"结尾。
第二个参数可以是一个要检索的'features'列表 - 获取子集可以大大提高性能。
请注意,这非常特定于Ensembl,它不处理任何其他GTF格式,并且它丢弃了在子元素上重复的属性 - 即,外显子只有gene_id,没有gene_name、gene_version、gene_...
结果坐标是Pythonic的 - 即,从0开始(即从GTF中的值中减去-1)。
这是mbf_*生物信息学库系列的一部分。
依赖关系
~5MB
~99K SLoC