5个不稳定版本
0.6.0 | 2022年8月26日 |
---|---|
0.5.0 | 2021年5月27日 |
0.4.4 | 2020年3月30日 |
0.4.3 | 2020年2月27日 |
0.4.0 | 2020年2月26日 |
#413 in 科学
35KB
678 行
sketchy
基于基因组邻接类型的谱系和基因型推断
概述
v0.6.0
Sketchy
是一个基于 Karel Břinda 和同事(2020 年)开发的基因组邻接类型启发式原理的谱系调用和基因型推断工具。它使用 MinHash 查询物种范围的('假设无关的')参考草图,并根据最接近的匹配推断相关的基因型,包括用户提供的多座位点序列型、易感性图谱、致病因素或其他与基因组相关的特征。与 RASE
中的原始实现不同,sketchy
不使用系统发育树,这有一些缺点,例如对亚谱系的基因型预测(见下文)。
有关安装、使用和数据库构建的最新文档,请参阅 最新文档。
优势和局限性
- 可以从大型基因组基因型集合中轻松构建参考草图和基因型索引
Sketchy
在使用小草图大小时(s = 1000
)所需资源较少Sketchy
在谱系预测和谱系范围内的基因型方面表现最佳,从非常少的读取中即可获得良好的效果 - 我们发现,十到数百个读取通常可以给出参考草图中的紧密匹配的良好概念(尤其是在使用--top
检查顶级匹配时)
然而
- 与使用系统发育引导树(
RASE
)相比,分支特定的基因型解析效果不佳 - 可以通过增加草图大小来提高性能(
s = 10000
),但资源大约呈线性扩展 Sketchy
的基因型推断对于具有高同源重组率的物种可能很困难
数据可用性
- 参考草图和基因型文件(
s = 1000
,s = 10000
,k = 16
)为S. aureus(包括耐药性预测和其他基因型的完整基因型),S. pneumoniae,K. pneumoniae,P. aeruginosa和Neisseria spp.(MLST)可在数据仓库中找到。 - 用于模拟物种数据交叉验证的参考草图可在本数据仓库中找到;从ENA参考集合中提取的所有物种的基因组组装也可在本数据仓库中找到。
- 用于从ENA收集中提取数据并计算参考指标的脚本是Grace Blackwell等人,可在脚本目录中找到。
- 巴布亚新几内亚(Flongle,Goroka,连续协议)的爆发分离株和基因型监测板的纳米孔读取数据可在数据仓库中下载。原始序列数据(Illumina / ONT)正在上传到NCBI(PRJNA657380)。
预印本
如果您使用sketchy
进行研究和其他应用,请引用
Steinig等人(2022)- 用于细菌爆发监测的基因组邻近型 - bioRxiv 2022.02.05.479210;doi:https://doi.org/10.1101/2022.02.05.479210
依赖项
~11–17MB
~225K SLoC