1 个不稳定版本
新版本 0.1.1 | 2024 年 8 月 26 日 |
---|
#373 在 命令行工具
37KB
778 行
背景
FORGe [Pritt2018] 是一个用于变异优先级排序和过滤的模型和软件工具,用于包括在泛基因组参考中。它根据种群频率、图重复性和/或变异邻近度,对每个变异的“对对齐准确性和计算开销的预期正面和负面影响”进行评分。然后根据这些评分对变异进行排名,并使用其中的一部分来增强参考基因组。
FORGe 的实现是按照设计与 HISAT2 或 Bowtie 工作流程兼容,并且不能直接集成到其他图构建工作流程中,如 PGGB 或 vg。它还要求输入文件描述变异的格式为 1ksnp,这不是像 VCF 那样普遍和简单,并要求将 VCF 转换为 1ksnp 的额外步骤。
由 rank.py
生成的最终排名文件也不是标准格式,如排序或过滤后的 VCF 文件。这就是 forgers
发挥作用的地方,它提供了将 FORGe 模型纳入更广泛工作流程所需的逻辑。
介绍
这个名为 forgers
(简称为 forge-rs
)的工具,旨在将 FORGe 模型应用于输入 VCF 文件,并支持基于 FORGe 排名的 VCF 操作。对于 forgers
的设计决策之一是,它可以无缝地与 bcftools
等工具一起工作,使用户可以将这些工具的 VCF 输出传递到 forgers
或反之亦然,以创建更复杂的变异过滤管道。
用法
目前,forgers 支持两个子命令:filter
和 resolve
。
过滤
基于 FORGe 排名过滤和/或注释 VCF 记录
USAGE:
forgers filter [FLAGS] [OPTIONS] [input]
FLAGS:
-a, --annotate Annotate the filtered records with FORGe rank
-g, --gzip Gzip output, detected by file extension by default
-h, --help Prints help information
-V, --version Prints version information
-v, --verbose Enable verbose mode
OPTIONS:
-f, --forge-rank <forge-rank> FORGe rank file [default: ordered.txt]
-k, --info-key <info-key> Annotate key for INFO field [default: FORGE]
-o, --output <output> Output file, stdout if not specified [default: -]
-t, --top <top> Top fraction of records to keep, keeps all by default [default: 1.0]
ARGS:
<input> Input VCF file, stdin if not specified [default: -]
解决
基于 FORGe 排名解决重叠变异;即当它们冲突时移除一个变异簇,并用排名更高的一个替换。如果可用,它考虑相性信息以确定两个重叠变异是否在任何样本中同时出现。
USAGE:
forgers resolve [FLAGS] [OPTIONS] [input]
FLAGS:
-g, --gzip Gzip output, detected by file extension by default
-h, --help Prints help information
-V, --version Prints version information
-v, --verbose Enable verbose mode
OPTIONS:
-f, --forge-rank <forge-rank> FORGe rank file [default: ordered.txt]
-o, --output <output> Output file, stdout if not specified [default: -]
ARGS:
<input> Input VCF file, stdin if not specified [default: -]
依赖项
~5.5MB
~106K SLoC