2个版本
0.1.1 | 2022年7月30日 |
---|---|
0.1.0 | 2022年7月30日 |
#253在 生物学
34KB
114 行
vcfverifier
通过检查FASTA文件中每条记录的REF列与FASTA文件匹配来验证给定的VCF文件是否与给定的assembly文件匹配(不区分大小写)
安装
首先安装rust,可能使用rustup https://rustup.rs/
然后
cargo install vcfverifier
用法
## Generated FASTA index (fai)
samtools faidx myfile.fa
## Run the verifier
vcfverifier --fasta myfile.fa --vcf myfile.vcf.gz
允许将plaintext、gzip或bgzip vcf文件作为--vcf标志的输入
约速度
处理1000基因组数据集的chr1(6.5M行)需要大约24秒
$ time vcfverifier --fasta hs37d5.fa --vcf ALL.chr1.phase3_shapeit2_mvncall_integrated_v5a.20130502.genotypes.vcf.gz
Lines processed: 6468347
No mismatching lines found
vcfverifier --fasta ~/Downloads/hs37d5.fa --vcf 24.07s user 0.26s system 99% cpu 24.330 total
注意
我的第一个rust项目!
使用faimm将索引过的FASTA文件内存映射,以保持内存使用量低(不需要将整个FASTA加载到内存中,VCF是逐行读取的) https://github.com/veldsla/faimm
依赖关系
~15MB
~326K SLoC