1 个不稳定版本

新版本 0.1.1 2024 年 8 月 26 日

#373命令行工具

MIT 许可证

37KB
778

背景

FORGe [Pritt2018] 是一个用于变异优先级排序和过滤的模型和软件工具,用于包括在泛基因组参考中。它根据种群频率、图重复性和/或变异邻近度,对每个变异的“对对齐准确性和计算开销的预期正面和负面影响”进行评分。然后根据这些评分对变异进行排名,并使用其中的一部分来增强参考基因组。

FORGe 的实现是按照设计与 HISAT2 或 Bowtie 工作流程兼容,并且不能直接集成到其他图构建工作流程中,如 PGGB 或 vg。它还要求输入文件描述变异的格式为 1ksnp,这不是像 VCF 那样普遍和简单,并要求将 VCF 转换为 1ksnp 的额外步骤。

rank.py 生成的最终排名文件也不是标准格式,如排序或过滤后的 VCF 文件。这就是 forgers 发挥作用的地方,它提供了将 FORGe 模型纳入更广泛工作流程所需的逻辑。

介绍

这个名为 forgers(简称为 forge-rs)的工具,旨在将 FORGe 模型应用于输入 VCF 文件,并支持基于 FORGe 排名的 VCF 操作。对于 forgers 的设计决策之一是,它可以无缝地与 bcftools 等工具一起工作,使用户可以将这些工具的 VCF 输出传递到 forgers 或反之亦然,以创建更复杂的变异过滤管道。

用法

目前,forgers 支持两个子命令:filterresolve

过滤

基于 FORGe 排名过滤和/或注释 VCF 记录

USAGE:
    forgers filter [FLAGS] [OPTIONS] [input]

FLAGS:
    -a, --annotate    Annotate the filtered records with FORGe rank
    -g, --gzip        Gzip output, detected by file extension by default
    -h, --help        Prints help information
    -V, --version     Prints version information
    -v, --verbose     Enable verbose mode

OPTIONS:
    -f, --forge-rank <forge-rank>    FORGe rank file [default: ordered.txt]
    -k, --info-key <info-key>        Annotate key for INFO field [default: FORGE]
    -o, --output <output>            Output file, stdout if not specified [default: -]
    -t, --top <top>                  Top fraction of records to keep, keeps all by default [default: 1.0]

ARGS:
    <input>    Input VCF file, stdin if not specified [default: -]

解决

基于 FORGe 排名解决重叠变异;即当它们冲突时移除一个变异簇,并用排名更高的一个替换。如果可用,它考虑相性信息以确定两个重叠变异是否在任何样本中同时出现。

USAGE:
    forgers resolve [FLAGS] [OPTIONS] [input]

FLAGS:
    -g, --gzip       Gzip output, detected by file extension by default
    -h, --help       Prints help information
    -V, --version    Prints version information
    -v, --verbose    Enable verbose mode

OPTIONS:
    -f, --forge-rank <forge-rank>    FORGe rank file [default: ordered.txt]
    -o, --output <output>            Output file, stdout if not specified [default: -]

ARGS:
    <input>    Input VCF file, stdin if not specified [default: -]

依赖项

~5.5MB
~106K SLoC