1 个不稳定版本

0.1.0 2023年8月2日

#5 in #wiggle

Apache-2.0 协议

14KB
240

rust-gc-count

cargo build --release
target/release/gccount --input in.fa --output out.wig

描述

一个用 Rust 编写的从 DNA 生成 GC wiggle 文件的工具。

帮助

Calculate GC and write into a wiggle file

Usage: gccount [OPTIONS] --input <INPUT> --output <OUTPUT>

Options:
      --input <INPUT>                   FASTA formatted file (can be gziped) to calculate GC from
      --output <OUTPUT>                 Output wiggle file. One file will be produced
      --window <WINDOW>                 Window size to calculate GC over [default: 5]
      --omit-tail                       Remove any trailing sequence and do not calcualte GC. Default behaviour is to retain the leftover sequence. GC is calculated over the remaining sequence length
      --write-chrom-sizes               Write a chrom.sizes file into the current directory. Use --chrom-sizes-path to configure location
      --chrom-sizes-path <CHROM.SIZES>  Path of the chrom.sizes file. Defaults to chrom.sizes [default: chrom.sizes]
      --verbose                         Be verbose
  -h, --help                            Print help
  -V, --version                         Print version

校验和计算器

target/release/checksumseq --input in.fa --output chrom.file

另一个用于从文件计算序列长度和校验和的二进制文件。生成的文件格式为制表符分隔,以下列出了列

  1. 序列 ID(如出现在 FASTA 文件中所示)
  2. 序列长度
  3. Refget ga4gh 标识符(SQ.sha512t24u)
  4. MD5 校验和十六进制编码

生成的文件也可以用作 chrom.sizes 文件。

命令行

Iterates through a FASTA file calclating checksums and sequence length

Usage: checksumseq [OPTIONS]

Options:
      --input <INPUT>    FASTA formatted file to calculate checksums from (- mean STDIN). Reads gzipped FASTA if the filename ends with .gz (including bgzip files) [default: -]
      --output <OUTPUT>  Output file (- means STDOUT). Each line is tab separated reporting "ID Length sha512t24u md5" [default: -]
      --verbose          Be verbose
  -h, --help             Print help
  -V, --version          Print version

代码质量级别

这里开发的代码尚未经过广泛测试,但已验证其产生正确和预期的输出。

依赖关系

~2.8–4MB
~72K SLoC