#genomics #bioinformatics #sequencing #pangenome

app cgt_bacpop

在泛基因组数据中标记核心和稀有基因

1 个不稳定版本

0.1.0 2024年1月23日

#146生物学

Apache-2.0

11KB
135

描述

此存储库是 CELEBRIMBOR 泛基因组分析管道的一部分,它提供了 Rust 代码,根据基因组样本中基因观察次数的多少将基因标记为核心、稀有或两者都不是。代码试图通过使用 CheckM 软件的基因组完整性分数来考虑不完整的基因组样本。

以下人员参与了 Rust 代码的编写并将其集成到 CELEBRIMBOR 管道中

  • Joel Hellewell
  • John Lees
  • Sam Horsfield
  • Johanna Von Wachsmann

示例

您可以在 checkM 输出的 genome_metadata.tsv 和存在-不存在矩阵(CELEBRIMBOR snakemake 管道中先前生成)gene_presence_absence.Rtab 上运行此代码。completeness-7 参数指定了 genome_metadata.tsv 中包含每个基因组样本完整性分数的列。

首先,使用此目录中的 cargo build --release 建立crate。然后,可以使用以下命令在示例数据上运行程序

target/release/cgt_bacpop example_data/genome_metadata.tsv example_data/gene_presence_absence.Rtab--completeness-7

依赖关系

~7–16MB
~191K SLoC