5 个版本 (3 个重大变更)

0.4.0 2024年1月18日
0.3.1 2021年11月26日
0.3.0 2020年12月10日
0.2.0 2020年8月26日
0.1.0 2020年2月20日

#37 in 生物学


2 个 crate 中使用 (通过 coverm)

GPL-3.0 许可协议

1MB
3K SLoC

Galah logo

加拉哈

Anaconda-Server Badge

加拉哈旨在成为更可扩展的宏基因组组装基因组(MAG)去重复方法。也就是说,它根据平均核苷酸身份(ANI)将微生物基因组聚类在一起,并选择每个聚类的单个成员作为代表。

与例如 dRep 相比,加拉哈使用贪婪聚类方法来加速基因组去重复,尤其是在存在许多密切相关基因组(即 >95% ANI)的情况下。生成的聚类代表具有以下两个特性。如果将 ANI 阈值设置为 99%,则

  1. 每个代表与其他每个代表的 ANI 小于 99%。
  2. 所有成员与代表之间的 ANI 都大于等于 99%。

如果指定了 CheckM 基因组质量,则聚类还具有以下特性

  1. 每个代表基因组的质量得分高于聚类中的其他成员。每个基因组根据以下公式分配一个质量得分:completeness-5*contamination-5*num_contigs/100-5*num_ambiguous_bases/100000,这是从 Parks 等人 2020 年描述的质量公式中简化而来 https://doi.org/10.1038/s41587-020-0501-8

如果没有提供 CheckM 质量,则以下内容适用

  1. 每个代表性基因组在聚类群组的其他成员之前被指定给galah。

整体贪婪聚类方法主要受Donovan Parks的工作启发,如Parks等人2020年的研究所述。它分为3个步骤。第一步,如果没有更高质量的基因组与代表性基因组>99%的ANI,则将基因组指定为代表性。第二步,将每个非代表性基因组分配给它具有最高ANI的代表性基因组。

安装

通过 bioconda 包进行安装

可以通过bioconda通道安装Galah:bioconda。在初始化conda和bioconda通道后,可以使用以下命令安装:

conda install galah

还可以通过CoverM间接使用Galah,通过其cluster子命令,该命令也可在bioconda上获得。

预编译的二进制文件

Galah可以通过下载静态编译的二进制文件进行安装,这些文件可在发布页面找到。

以下列出此方法所需的第三方依赖项。

从源码编译

安装Rust后,也可以从源代码安装Galah,使用cargo构建系统。

cargo install galah

以下列出此方法所需的第三方依赖项。

开发

在安装Rust后运行Galah的未发布版本

git clone https://github.com/wwood/galah
cd galah
cargo run -- cluster ...etc...

以下列出此方法所需的第三方依赖项。

依赖项

Galah依赖于以下第三方工具,必须单独安装。

用法

用于在99% ANI下对一组基因组进行聚类

galah cluster --genome-fasta-files /path/to/genome1.fna /path/to/genome2.fna --output-cluster-definition clusters.tsv

还有其他几种方法可以指定基因组、ANI截止值等。

完整的用法在手册页面中描述,可以在命令行运行galah cluster --full-help时访问。

预聚类 ANI

与dRep类似,galah分为两个阶段运行。在第一阶段,计算每对基因组之间的快速预聚类距离(dashing)。只有当预阈值ANI大于指定的值时,基因组对才被认为是可能属于同一个聚类的。默认情况下,预聚类ANI设置为95%,最终ANI设置为99%。

许可协议

Galah在GPL3+下提供。有关详细信息,请参阅LICENSE.txt。版权所有Ben Woodcroft。

由Ben Woodcroft在昆士兰科技大学微生物组研究中心开发。

依赖项

~25–38MB
~528K SLoC