#fasta #genomics #windows #array

bin+lib fasta_windows

从fasta文件中快速统计Windows中的统计信息

2个版本

0.2.4 2022年8月24日
0.2.3 2022年4月25日

#162 in 生物学

MIT 许可证

34KB
646

fasta_windows

专为Darwin Tree of Life 染色体水平基因组组装编写。可执行文件接受一个fasta格式的文件,并计算一些感兴趣窗口中的统计信息

  • GC含量
  • GC比例
  • GC和AT偏差
  • G、C、A、T、N和CpG的比例
  • 香农熵
  • 二核苷酸/三核苷酸/四核苷酸香农多样性
  • 二核苷酸/三核苷酸/四核苷酸频率数组

输出文件可以使用 fw_plot 或使用 fw_group 进行分组。

下载

获取 fasta_windows 最简单的方法是通过 conda/bioconda.

conda create -n fasta_windows -c bioconda fasta_windows

用法

Fasta windows 0.2.3
Max Brown <mb39@sanger.ac.uk>
Quickly compute statistics over a fasta file in windows.

USAGE:
    fasta_windows [FLAGS] [OPTIONS] --fasta <fasta> --output <output>

FLAGS:
    -d, --description    Add an extra column to _windows.tsv output with fasta header descriptions.
    -h, --help           Prints help information
    -m, --masked         Consider only uppercase nucleotides in the calculations.
    -V, --version        Prints version information

OPTIONS:
    -f, --fasta <fasta>                The input fasta file.
    -o, --output <output>              Output filename for the TSV's (without extension).
    -w, --window_size <window_size>    Integer size of window for statistics to be computed over. [default: 1000]

构建

构建 需要Rust.

git clone https://github.com/tolkit/fasta_windows
cd fasta_windows
cargo build --release
# ./target/release/fasta_windows is the executable
# show help
./target/release/fasta_windows --help

默认窗口大小为1kb。

输出

输出现在是包含bed-like格式的tsv,前三个列

ID	start	end	GC_prop	GC_skew	AT_skew	Shannon_entropy	Prop_Gs	Prop_Cs	Prop_As	Prop_Ts	Prop_Ns	CpG_prop	Dinucleotide_Shannon	Trinucleotide_Shannon	Tetranucleotide_Shannon
OV656674.1	0	1000	0.533	-0.088	-0.006	1.994	0.243	0.290	0.232	0.235	0.000	0.070	3.963	5.825	7.474
OV656674.1	1000	2000	0.645	0.048	0.025	1.937	0.338	0.307	0.182	0.173	0.000	0.120	3.862	5.751	7.526
OV656674.1	2000	3000	0.579	0.022	0.012	1.982	0.296	0.283	0.213	0.208	0.000	0.106	3.940	5.871	7.653
OV656674.1	3000	4000	0.541	0.039	-0.020	1.994	0.281	0.260	0.225	0.234	0.000	0.081	3.980	5.926	7.763
OV656674.1	4000	5000	0.585	0.084	-0.075	1.974	0.317	0.268	0.192	0.223	0.000	0.104	3.917	5.801	7.568
OV656674.1	5000	6000	0.529	-0.096	-0.006	1.994	0.239	0.290	0.234	0.237	0.000	0.068	3.938	5.740	7.297
OV656674.1	6000	7000	0.576	-0.118	0.075	1.976	0.254	0.322	0.228	0.196	0.000	0.079	3.948	5.884	7.666
OV656674.1	7000	8000	0.526	-0.004	0.084	1.996	0.262	0.264	0.257	0.217	0.000	0.065	3.975	5.903	7.692
OV656674.1	8000	9000	0.430	-0.093	0.088	1.980	0.195	0.235	0.310	0.260	0.000	0.054	3.955	5.899	7.719

还有输出(目前为非可选),另外三个TSV,包含每个窗口中二核苷酸/三核苷酸/四核苷酸频率的数组。这些文件很大,特别是四核苷酸频率将包含4e4列。kmers按字典顺序从左到右排序(AA(AA)到TT(TT))。

例如,对于二核苷酸频率

ID	start	end	AA	AC	AG	AT	CA	CC	CG	CT	GA	GC	GG	GT	TA	TC	TG	TT
OV656674.1	0	1000	74	65	47	46	38	99	70	83	58	65	68	52	62	60	58	54
OV656674.1	1000	2000	36	54	58	33	49	89	120	49	75	101	97	65	22	63	62	26
OV656674.1	2000	3000	62	46	68	37	45	74	106	58	64	93	67	71	41	70	55	42
OV656674.1	3000	4000	55	56	55	59	61	59	81	58	70	73	72	66	39	71	73	51
OV656674.1	4000	5000	35	58	45	54	46	53	104	64	83	87	80	67	28	70	87	38
OV656674.1	5000	6000	81	71	42	40	29	106	68	87	56	60	71	51	68	53	58	58
OV656674.1	6000	7000	57	74	58	39	78	96	79	68	56	87	64	47	37	64	53	42
OV656674.1	7000	8000	81	45	79	52	63	74	65	62	69	82	59	52	44	62	59	51
OV656674.1	8000	9000	103	71	49	87	70	57	54	54	59	44	40	51	78	62	52	68

注释、更新和错误

截至版本0.2.2,我已经删除了作为选项的规范kmers;它计算成本很高,我也想不出如何高效地添加它。希望使用此功能的最终用户被指向 fw_group,它将在不久的将来提供此功能。

-m(掩码)标志仅影响GC含量、GC比例、GC和AT偏差、G、C、A、T、N和CpG的比例。kmers将自动强制转换为 uppercase。香农指数仅计算uppercase核苷酸。

请使用、测试,并告诉我是否有任何错误或您希望实现的功能。要么提出问题,要么给我发邮件(见使用说明中的电子邮件)。

依赖关系

~18–28MB
~397K SLoC