#fasta #statistics #sequence #biological #data #compute #descriptive

应用 fasta-stats

对FASTA(生物序列)数据执行简单描述性统计

4个版本 (2个破坏性更新)

0.3.1 2024年7月12日
0.3.0 2024年7月12日
0.2.0 2024年7月9日
0.1.0 2024年7月8日

#36 in 生物学

Download history 153/week @ 2024-07-04 139/week @ 2024-07-11 23/week @ 2024-07-25 4/week @ 2024-08-01

每月下载 187次

MIT 许可证

13KB
153 代码行

fasta-stats

对FASTA文件计算简单描述性统计

用法

Simple descriptive statistics on FASTA (biological sequence) data

Usage: fasta-stats [OPTIONS] [FILE]

Arguments:
  [FILE]

Options:
  -m, --median
  -d, --stddev
  -s, --sample <SAMPLE>
      --hint <SIZE_HINT>
  -h, --help              Print help
  -V, --version           Print version

默认情况下,此程序使用流式方法来计算平均值、最小值、最大值和计数。应该需要最少的内存。

如果存在 medianstddev 标志,则需要更多的内存,因为无法进行流式处理。为了最小化内存使用,可以指定 sample 参数;它被解释为“n中的1”,例如,如果提供了 --sample 100,则预计将有1%的样本存储在向量中以用于这些计算。更大的 sample 值将导致更低的内存使用,但计算结果更不准确。

此简单程序期望从STDIN或命名文件读取FASTA数据,并将输出序列总数以及最小值、最大值、平均值,以及可选的中位数和标准差。如果您有压缩的FASTA文件,可以通过 zcatgunzip 将其通过管道传输以在运行时解压缩。

依赖关系

~20MB
~356K SLoC