#fasta #vcf #matches #column #ref #assembly #index

app vcfverifier

通过比较VCF文件中的REF列与底层FASTA序列来验证给定的VCF是否与给定的FASTA匹配

2个版本

0.1.1 2022年7月30日
0.1.0 2022年7月30日

#253生物学

MIT许可证

34KB
114

vcfverifier

通过检查FASTA文件中每条记录的REF列与FASTA文件匹配来验证给定的VCF文件是否与给定的assembly文件匹配(不区分大小写)

安装

首先安装rust,可能使用rustup https://rustup.rs/

然后

cargo install vcfverifier

用法

## Generated FASTA index (fai)
samtools faidx myfile.fa

## Run the verifier
vcfverifier --fasta myfile.fa --vcf myfile.vcf.gz

允许将plaintext、gzip或bgzip vcf文件作为--vcf标志的输入

约速度

处理1000基因组数据集的chr1(6.5M行)需要大约24秒

$ time vcfverifier --fasta hs37d5.fa --vcf ALL.chr1.phase3_shapeit2_mvncall_integrated_v5a.20130502.genotypes.vcf.gz
Lines processed: 6468347
No mismatching lines found
vcfverifier --fasta ~/Downloads/hs37d5.fa --vcf   24.07s user 0.26s system 99% cpu 24.330 total

注意

我的第一个rust项目!

使用faimm将索引过的FASTA文件内存映射,以保持内存使用量低(不需要将整个FASTA加载到内存中,VCF是逐行读取的) https://github.com/veldsla/faimm

依赖关系

~15MB
~326K SLoC