#typing #complex #fastq #mtbc #lineage #tuberculosis #mycobacterium

app fastlin

MTBC谱系分型的一种超快速程序

3个不稳定版本

0.2.1 2023年7月17日
0.2.0 2023年7月16日
0.1.0 2023年6月26日

#136 in 生物学

MIT/Apache

23KB
331

Crates.io GitHub release (latest SemVer)

fastlin

概述

Fastlin是一个用于对MTBC(结核分支杆菌)复杂谱系进行谱系分型的超快速程序。使用kmer方法,它可以在几秒钟内准确预测MTBC谱系和菌株混合。

参考文献:待定

安装

要使用Cargo安装fastlin,您必须已安装Rust工具链

cargo install fastlin

或者您也可以从本仓库复制代码,并使用以下命令安装

cargo install --path .

您还需要一个条码文件(见下文输入文件)。

运行fastlin

默认命令行是

fastlin -d /path/directory_fastq_files -b barcodes_file.txt

如果您的数据集不包含任何由BAM派生的fastq文件,那么我们建议您应用一个最大kmer覆盖率阈值以减少运行时间

fastlin -d /path/directory_fastq_files -b barcode_file.txt -x 80

输入文件

Fastlin将作为输入接受包含fastq文件的目录的路径。fastq文件应该是压缩的,扩展名应为'.fastq.gz'或'fq.gz'。配对端文件名应采用'名称_1.fq.gz'和'名称_2.fq.gz'的形式。该目录可以包含配对端和单端fastq文件。

MTBC条码文件可以从https://www.github.com/rderelle/barcodes-fastlin下载。或者,您可以使用该目录中提供的Python脚本来构建和测试自己的kmer条码。

输出文件

Fastlin的输出是一个以制表符分隔的文件,包含以下字段

  • sample:样本名称
  • nb_files:'single'或'paired'-end文件
  • k_cov:基于提取的kmer数量的fastq文件的理论kmer覆盖率
  • mixture:纯('no')或混合('yes')样本
  • lineages:在样本中检测到的谱系及其括号内的kmer出现次数
  • log_barcodes:通过最小出现次数阈值的kmer条码,以它们的kmer出现次数和谱系分组

以下是一个简单的示例

#sample    nb_files    k_cov    mixture    lineages    log_barcodes
ERRxxxxx    paired    118    no    2    (45)    2 (42, 48, 39, 43, 54, 47, 45), 4.1 (4)

样本ERRxxxxx包含一个属于谱系2的单个菌株。这种分型得到了7个kmer条码的支持,中位出现次数为45。由于菌株的丰度远低于理论kmer覆盖率(此处等于118),我们可以得出结论,该样本很可能含有高水平的污染或测序错误。

待办事项列表

  • 多线程
  • 分析FASTA文件(基因组组装)的可能性

依赖项

~6–15MB
~174K SLoC