4个版本 (2个破坏性更新)

0.3.1	2024年7月12日
0.3.0	2024年7月12日
0.2.0	2024年7月9日
0.1.0	2024年7月8日

#36 in 生物学

每月下载 187次

MIT 许可证

13KB
153 代码行

fasta-stats

对FASTA文件计算简单描述性统计

用法

Simple descriptive statistics on FASTA (biological sequence) data

Usage: fasta-stats [OPTIONS] [FILE]

Arguments:
  [FILE]

Options:
  -m, --median
  -d, --stddev
  -s, --sample <SAMPLE>
      --hint <SIZE_HINT>
  -h, --help              Print help
  -V, --version           Print version

默认情况下，此程序使用流式方法来计算平均值、最小值、最大值和计数。应该需要最少的内存。

如果存在 median 或 stddev 标志，则需要更多的内存，因为无法进行流式处理。为了最小化内存使用，可以指定 sample 参数；它被解释为“n中的1”，例如，如果提供了 --sample 100，则预计将有1%的样本存储在向量中以用于这些计算。更大的 sample 值将导致更低的内存使用，但计算结果更不准确。

此简单程序期望从STDIN或命名文件读取FASTA数据，并将输出序列总数以及最小值、最大值、平均值，以及可选的中位数和标准差。如果您有压缩的FASTA文件，可以通过 zcat 或 gunzip 将其通过管道传输以在运行时解压缩。

依赖关系

~20MB
~356K SLoC