4个版本 (2个破坏性更新)
0.3.1 | 2024年7月12日 |
---|---|
0.3.0 | 2024年7月12日 |
0.2.0 | 2024年7月9日 |
0.1.0 | 2024年7月8日 |
#36 in 生物学
每月下载 187次
13KB
153 代码行
fasta-stats
对FASTA文件计算简单描述性统计
用法
Simple descriptive statistics on FASTA (biological sequence) data
Usage: fasta-stats [OPTIONS] [FILE]
Arguments:
[FILE]
Options:
-m, --median
-d, --stddev
-s, --sample <SAMPLE>
--hint <SIZE_HINT>
-h, --help Print help
-V, --version Print version
默认情况下,此程序使用流式方法来计算平均值、最小值、最大值和计数。应该需要最少的内存。
如果存在 median
或 stddev
标志,则需要更多的内存,因为无法进行流式处理。为了最小化内存使用,可以指定 sample
参数;它被解释为“n中的1”,例如,如果提供了 --sample 100
,则预计将有1%的样本存储在向量中以用于这些计算。更大的 sample
值将导致更低的内存使用,但计算结果更不准确。
此简单程序期望从STDIN或命名文件读取FASTA数据,并将输出序列总数以及最小值、最大值、平均值,以及可选的中位数和标准差。如果您有压缩的FASTA文件,可以通过 zcat
或 gunzip
将其通过管道传输以在运行时解压缩。
依赖关系
~20MB
~356K SLoC