5 个版本 (3 个重大变更)
0.4.0 | 2024年1月18日 |
---|---|
0.3.1 | 2021年11月26日 |
0.3.0 | 2020年12月10日 |
0.2.0 | 2020年8月26日 |
0.1.0 | 2020年2月20日 |
#37 in 生物学
在 2 个 crate 中使用 (通过 coverm)
1MB
3K SLoC
加拉哈
加拉哈旨在成为更可扩展的宏基因组组装基因组(MAG)去重复方法。也就是说,它根据平均核苷酸身份(ANI)将微生物基因组聚类在一起,并选择每个聚类的单个成员作为代表。
与例如 dRep 相比,加拉哈使用贪婪聚类方法来加速基因组去重复,尤其是在存在许多密切相关基因组(即 >95% ANI)的情况下。生成的聚类代表具有以下两个特性。如果将 ANI 阈值设置为 99%,则
- 每个代表与其他每个代表的 ANI 小于 99%。
- 所有成员与代表之间的 ANI 都大于等于 99%。
如果指定了 CheckM 基因组质量,则聚类还具有以下特性
- 每个代表基因组的质量得分高于聚类中的其他成员。每个基因组根据以下公式分配一个质量得分:
completeness-5*contamination-5*num_contigs/100-5*num_ambiguous_bases/100000
,这是从 Parks 等人 2020 年描述的质量公式中简化而来 https://doi.org/10.1038/s41587-020-0501-8。
如果没有提供 CheckM 质量,则以下内容适用
- 每个代表性基因组在聚类群组的其他成员之前被指定给galah。
整体贪婪聚类方法主要受Donovan Parks的工作启发,如Parks等人2020年的研究所述。它分为3个步骤。第一步,如果没有更高质量的基因组与代表性基因组>99%的ANI,则将基因组指定为代表性。第二步,将每个非代表性基因组分配给它具有最高ANI的代表性基因组。
安装
通过 bioconda 包进行安装
可以通过bioconda通道安装Galah:bioconda。在初始化conda和bioconda通道后,可以使用以下命令安装:
conda install galah
还可以通过CoverM间接使用Galah,通过其cluster
子命令,该命令也可在bioconda上获得。
预编译的二进制文件
Galah可以通过下载静态编译的二进制文件进行安装,这些文件可在发布页面找到。
以下列出此方法所需的第三方依赖项。
从源码编译
安装Rust后,也可以从源代码安装Galah,使用cargo构建系统。
cargo install galah
以下列出此方法所需的第三方依赖项。
开发
在安装Rust后运行Galah的未发布版本
git clone https://github.com/wwood/galah
cd galah
cargo run -- cluster ...etc...
以下列出此方法所需的第三方依赖项。
依赖项
Galah依赖于以下第三方工具,必须单独安装。
- Dashing v0.4.0 https://github.com/dnbaker/dashing
- FastANI v1.31 https://github.com/ParBLiSS/FastANI
用法
用于在99% ANI下对一组基因组进行聚类
galah cluster --genome-fasta-files /path/to/genome1.fna /path/to/genome2.fna --output-cluster-definition clusters.tsv
还有其他几种方法可以指定基因组、ANI截止值等。
完整的用法在手册页面中描述,可以在命令行运行galah cluster --full-help
时访问。
预聚类 ANI
与dRep类似,galah分为两个阶段运行。在第一阶段,计算每对基因组之间的快速预聚类距离(dashing)。只有当预阈值ANI大于指定的值时,基因组对才被认为是可能属于同一个聚类的。默认情况下,预聚类ANI设置为95%,最终ANI设置为99%。
许可协议
Galah在GPL3+下提供。有关详细信息,请参阅LICENSE.txt。版权所有Ben Woodcroft。
由Ben Woodcroft在昆士兰科技大学微生物组研究中心开发。
依赖项
~25–38MB
~528K SLoC