#sequence-alignment #similarity #identity #protein-sequences #similarity-score

bin+lib pseqsid

计算多重序列比对中蛋白质的成对序列身份、相似度和标准化相似度得分

5 个版本 (3 个稳定版)

1.0.2 2024年2月6日
1.0.1 2022年5月25日
1.0.0 2022年5月24日
0.2.1 2022年5月22日
0.1.1 2022年5月21日

#111 in 科学

MIT 许可证

48KB
672

pseqsid

计算多重序列比对中蛋白质的成对序列身份、相似度和标准化相似度得分。

用法

USAGE:
    pseqsid [OPTIONS] <MSA>

ARGS:
    <MSA>    Multiple Sequence Alignment file

OPTIONS:
    -i, --identity               Calculate pairwise sequence identity
    -s, --similarity             Calculate pairwise sequence similarity
    -n, --nss                    Calculate pairwise sequence Normalized Similarity Score
    -l, --length <LENGTH>        Sequence length to be use for identity and similarity calculations
                                 [default: smallest] [possible values: smallest, mean, largest,
                                 alignment]
    -g, --grouping <GROUPING>    Similarity amino acid grouping definition file. A default one is
                                 created if required and not provided
    -m, --matrix <MATRIX>        Type of matrix to be used for Normalized Similarity Score [default:
                                 blosum62] [possible values: blosum62, pam250, gonnet]
    -p, --po <PO>                Gap opening penalty (Po) [default: 10.0]
    -e, --pe <PE>                Gap extending penalty (Pe) [default: 0.5]
    -t, --threads <THREADS>      Number of threads to use. 0 use all available threads [default: 0]
    -h, --help                   Print help information
    -V, --version                Print version information

关于参数和选项的说明

<MSA> 是蛋白质多重序列比对文件(FASTA格式)的文件路径。仅接受标准氨基酸和间隙(-)。DNA序列的比对将解释为包含大量Ala、Gly、Thr和Cys残基的蛋白质,给出无意义的相似度和标准化相似度得分(NSS)值。

-i--identity 激活比对中条目之间的成对身份计算。序列身份定义为相对于序列长度的相同位置上相同残基的百分比。使用的序列长度类型由 -l 选项定义。除 alignment 外,所有序列长度类型都会忽略仅含间隙的列。

-l   --length   要使用的序列长度。如果给定的序列对存在间隙,则可以使用四种不同的序列长度值:最小值、平均值(均值)、最大值和对齐长度(最后一种只考虑仅含间隙的列,前三种不考虑)。选择哪种类型的长度将取决于分析的目的。例如,如果您有一个假设的蛋白质 prot_short,并且您正在使用模板蛋白质 template_long 来模拟 prot_short 的结构,并且 prot_short 的序列比 template_long 短,那么使用 -l smallest 将告诉您所需的身份值,以评估您同源建模的可行性。在其他情况下,如果您想使用身份值来了解任何给定的序列对在您的对齐中的相似程度,您可能应该使用 -l meanalignment

-s   --similarity   激活对齐中条目之间的成对相似度计算。序列相似度定义为与序列长度相比,在等效位置上相同或相似的残基的百分比。上述关于身份的说明大部分也适用于相似度。可以通过文件定义氨基酸相似度组,并通过 -g 选项提供。

-g   --grouping   相似度氨基酸分组文件的文件路径。如果没有提供且提供了 -s 选项,则创建并使用默认的名为 default_aa_similarity_groups.txt 的文件。此文件格式很简单:aa group namesingle_letter_aa_names# 符号注释掉该行剩余部分。每个组名只能定义一次,任何氨基酸只能属于一个组(或没有)。只接受标准氨基酸。每个组至少必须有两个氨基酸。如果需要,将默认文件 default_aa_similarity_groups.txt 作为自定义分组定义的模板使用。

-n   --nss   激活使用以下公式的成对归一化相似度得分计算

$S = \frac{(\sum M_{ij} - oP_o -eP_e)(\sum M_{ii} + \sum M_{jj})}{2\sum M_{ii}\sum M_{jj}}$

其中:$M_{ij}$ 是从替换矩阵中获得的每个成对对齐氨基酸 ij 的对数优势值。使用哪个替换矩阵由 -m 选项定义。$M_{ii}$ 和 $M_{jj}$ 是分别对应于第一个和第二个序列在成对中的给定残基的保留的对数优势值。$o$ 是序列对中的间隙开放次数。$P_o$ 是间隙开放罚分,由 -p 选项定义。$e$ 是序列对中的总间隙数。仅含间隙的列被忽略。$P_e$ 是间隙扩展罚分,由 -e 选项定义。

-m--matrix  用于计算归一化相似度得分的替换矩阵。对应于模糊氨基酸定义的值(例如 BZX)将被忽略,并添加一个新列和新行用于表示间隙 -,其值为零。所有三个矩阵都是公开的,可以从多个来源获取,以便您检查它们。

-p--po  用于计算归一化相似度得分的间隙打开罚分。

-e--pe  用于计算归一化相似度得分的间隙扩展罚分。

输出

身份、相似度和NSS矩阵被保存为CSV文件,文件名从<MSA>派生,并附加一个适当的子字符串。由于这些是对称矩阵,因此只保存下半部分。对角线被忽略,因为每个蛋白质序列与其自身的身份和相似度均为100%,而NSS为1。

安装

使用 snap

snap install pseqsid

使用 cargo

cargoinstall pseqsid

或者您可以下载并自行构建crates。

依赖关系

~4–14MB
~128K SLoC