3个不稳定版本
0.2.1 | 2023年7月17日 |
---|---|
0.2.0 | 2023年7月16日 |
0.1.0 | 2023年6月26日 |
#136 in 生物学
23KB
331 行
fastlin
概述
Fastlin是一个用于对MTBC(结核分支杆菌)复杂谱系进行谱系分型的超快速程序。使用kmer方法,它可以在几秒钟内准确预测MTBC谱系和菌株混合。
参考文献:待定
安装
要使用Cargo安装fastlin,您必须已安装Rust工具链。
cargo install fastlin
或者您也可以从本仓库复制代码,并使用以下命令安装
cargo install --path .
您还需要一个条码文件(见下文输入文件)。
运行fastlin
默认命令行是
fastlin -d /path/directory_fastq_files -b barcodes_file.txt
如果您的数据集不包含任何由BAM派生的fastq文件,那么我们建议您应用一个最大kmer覆盖率阈值以减少运行时间
fastlin -d /path/directory_fastq_files -b barcode_file.txt -x 80
输入文件
Fastlin将作为输入接受包含fastq文件的目录的路径。fastq文件应该是压缩的,扩展名应为'.fastq.gz'或'fq.gz'。配对端文件名应采用'名称_1.fq.gz'和'名称_2.fq.gz'的形式。该目录可以包含配对端和单端fastq文件。
MTBC条码文件可以从https://www.github.com/rderelle/barcodes-fastlin下载。或者,您可以使用该目录中提供的Python脚本来构建和测试自己的kmer条码。
输出文件
Fastlin的输出是一个以制表符分隔的文件,包含以下字段
- sample:样本名称
- nb_files:'single'或'paired'-end文件
- k_cov:基于提取的kmer数量的fastq文件的理论kmer覆盖率
- mixture:纯('no')或混合('yes')样本
- lineages:在样本中检测到的谱系及其括号内的kmer出现次数
- log_barcodes:通过最小出现次数阈值的kmer条码,以它们的kmer出现次数和谱系分组
以下是一个简单的示例
#sample nb_files k_cov mixture lineages log_barcodes
ERRxxxxx paired 118 no 2 (45) 2 (42, 48, 39, 43, 54, 47, 45), 4.1 (4)
样本ERRxxxxx包含一个属于谱系2的单个菌株。这种分型得到了7个kmer条码的支持,中位出现次数为45。由于菌株的丰度远低于理论kmer覆盖率(此处等于118),我们可以得出结论,该样本很可能含有高水平的污染或测序错误。
待办事项列表
- 多线程
- 分析FASTA文件(基因组组装)的可能性
依赖项
~6–15MB
~174K SLoC