#gtf-gff #fasta #gtf #gff #command-line-tool #transcriptome

bin+lib to-trans

从 fasta + GTF/GFF 构建高性能转录组

2 个不稳定版本

0.2.0 2023年12月29日
0.1.0 2023年11月20日

#139 in 生物学

MIT 许可证

160KB
408

version-badge Crates.io GitHub

to-trans

从 fasta + GTF/GFF 构建高性能外显子/编码区剪接转录组。这是一个用 Rust 编写的命令行工具,通过使用基因组 (.fa) 和基因模型 (.gtf/.gff) 来构建转录组。

用法

High-performance transcriptome builder from fasta + GTF/GFF

Usage: to-trans --fasta <FASTA> --gtf <GTF> [OPTIONS]

--Arguments:
  -f, --fasta <FASTA>  Path to your .fa file
  -g, --gtf <GTF/GFF>      Path to your .gtf/.gff file

Options:
  -m, --mode <MODE>      Feature to extract from GTF/GFF file (exon or CDS) [default: exon]
  -o, --out <OUT>      Path to output file [default: transcriptome.fa].
  -t, --threads <THREADS>      Number of threads [default: max ncpus] 
  -h, --help           Print help
  -V, --version        Print version

crate: https://crates.io/crates/to-trans

版本 0.2.0 的新特性

  • 现在 to-trans 的速度提高了约 2-3 秒!
  • 并行方法现在是组装转录序列的主算法

即将推出...

to-trans 将随着时间的推移不断成长,扩展其选项和功能。在下一个版本中,将推出以下功能:内含子提取、基于长度的转录组、针对特定染色体的构建,以及其他功能!

安装/构建

要安装 to-trans,请执行以下操作

  1. 获取 Rust:在 Unix 上,请运行 curl https://sh.rustup.rs -sSf | sh,或者访问 此处 获取其他选项
  2. 运行 cargo install to-trans(确保在运行之前将 ~/.cargo/bin 添加到您的 $PATH 环境变量中)

要构建 to-trans,请执行以下操作

  1. 获取 Rust(如上所述)
  2. 运行 git clone https://github.com/alejandrogzi/to-trans.git && cd to-trans
  3. 运行 cargo run --release <FASTA> <GTF/GFF> <MODEL> <OUTPUT>

默认情况下,to-trans使用exon模式,并将输出发送到./transcriptome.fa

基准测试

请注意,这个基准测试已经过时了。现在to-trans快2-3秒!对于人类基因组/gtf,to-trans构建完整的转录组需要6秒,这大约是GFFRead的3倍快!

除了某些特定物种,例如人类(GRCh38)或小鼠(GRCm39)拥有可用的转录组外,大多数动物界都没有预先定义的转录序列文件。当在转录/异构体层面上工作时,这成为一个问题。

与GFFRead(1)相比,这是一个功能强大的gff/gtf工具,to-trans可以在不需要索引输入基因组的情况下,2倍快地构建完整的转录组。在人类模型上,to-trans达到最多8秒,而GFFRead最多15秒(已经有一个索引.fai)。对于狗,一个在公共数据库中未提供转录序列的物种,to-trans需要3.5秒,而GFFRead加倍(分别为6秒和12秒,分别对应于已索引和未索引的基因组)。

to-trans提供了一种新颖的选项,可以从基因组+基因模型高效地构建转录组。这个工具提供了高性能和效率,无需环境或复杂的依赖关系,并且可以轻松地附加到工作流程/管道中。

参考文献

  1. Pertea G和Pertea M. GFF Utilities: GffRead和GffCompare [版本1;同行评审:3篇批准]。F1000Research 2020,9:304 (https://doi.org/10.12688/f1000research.23297.1) https://github.com/gpertea/gffread

依赖关系

~3–15MB
~140K SLoC