#plain-text #k-mer #genome #bio

bin+lib matchtigs

计算 kmer 集合的小型和平文表示的不同算法

24 个稳定版本

2.1.7 2024 年 8 月 7 日
2.1.6 2023 年 10 月 25 日
2.1.5 2023 年 6 月 27 日
1.7.0 2023 年 5 月 2 日
1.0.0 2021 年 12 月 2 日

#79压缩

Download history 3/week @ 2024-04-22 1/week @ 2024-05-06 3/week @ 2024-05-20 63/week @ 2024-06-03 15/week @ 2024-06-10 1/week @ 2024-06-17 12/week @ 2024-07-01 193/week @ 2024-07-29 122/week @ 2024-08-05

每月 315 次下载

自定义许可

180KB
3.5K SLoC

Matchtigs & Eulertigs:kmer 集合的最小平文表示 - 带重复和不带重复

Version Downloads Docs

Anaconda-Server Badge Anaconda-Server Badge

这是计算 kmer 集合小型和平文表示的不同算法的实现。这些算法期望以单元读作为输入,例如可以使用 GGCATBCALM2 计算。

如果您希望从任意输入中计算 matchtigs 或 Eulertigs,而不首先计算单元读,请考虑使用 GGCAT。它的说明中提到了所需的标志。

特性

  • 使用多线程计算 matchtigs 和贪婪 matchtigs
  • 计算 Eulertigs
  • 计算 pathtigs(类似于 ProphAsm 的启发式 Eulertigs)
  • 支持 fasta 和 GFA 格式,以及如果文件以 .gz 结尾则支持 gzip 压缩
  • GGCAT 输出的 fasta 文件中的注释(使用 -e 标志)或 BCALM2(无需标志)可以用于加速加载(使用 --bcalm-in 而不是 --fasta-in
  • 输出重复 kmers 的 (ASCII-) 位向量,用于需要唯一 kmers 的应用程序

安装

matchtigs 工具可以使用以下方法安装。默认情况下,它实现了所有算法,但不是最优 matchtig 算法。这是因为最优 matchtig 算法使用了商业软件 blossom V,该软件对研究人员 免费提供,但不能公开重新分发。对于所有实际用途,我们建议使用贪婪 matchtigs,因为它们的计算效率更高,并且累积长度和字符串计数与 matchtigs 非常相似(请参见下方的 matchtigs 公布物)。

通过 conda/mamba 安装

使用以下方式安装 matchtigs

mamba install -c conda-forge -c bioconda matchtigs

通过 cargo 进行安装

要求

Rust 版本 >= 1.70.0,最佳安装方式为通过 rustup 进行。

安装

使用以下方式安装 matchtigs

cargo install matchtigs

使用方法

注意:计算最小 matchtigs 需要 O(|V|^2) 内存,通常在实际情况中不可行。请使用贪婪 matchtigs 代替,它们是 近最优的

从 fasta 文件计算 matchtigs 和贪婪 matchtigs 并将它们保存为 GFA(不带拓扑结构)

matchtigs --fa-in unitigs.fa --matchtigs-gfa-out matchtigs.gfa --greedytigs-gfa-out greedy-matchtigs.gfa

从 GFA 文件计算 Eulertigs 并将它们保存为 GFA(不带拓扑结构)和 fasta 格式

matchtigs --fa-in unitigs.fa --eulertigs-gfa-out eulertigs.gfa --eulertigs-fa-out eulertigs.fa

注意:当使用 GGCAT 或 BCALM2 计算单元igs时,使用 --bcalm-in 会更快。

matchtigs --bcalm-in unitigs.fa --eulertigs-gfa-out eulertigs.gfa --eulertigs-fa-out eulertigs.fa

使用 --help 选项获取可用选项的概述。

matchtigs --help

引用

matchtigs (Genome Biology)

Schmidt, S., Khan, S., Alanko, J., Pibiri, G. E., and Tomescu, A. I., Matchtigs: minimum plain text representation of k-mer sets. Genome Biology 24, 136 (2023). 10.1186/s13059-023-02968-z.

Eulertigs (WABI 2022 best paper award)

Schmidt, S. and Alanko, J., Eulertigs: minimum plain text representation of k-mer sets without repetitions in linear time. WABI 2022. 10.4230/LIPIcs.WABI.2022.2.

依赖项

~21–32MB
~491K SLoC