2个版本
0.1.1 | 2024年5月19日 |
---|---|
0.1.0 | 2024年5月19日 |
#93 在 生物学
170KB
2.5K SLoC
sumi: 一个简单的small RNA umi分析
针对UMI的小RNA文库的简单分析
除了标准的miRNA外,还可以用来检测isomiRs的存在。
它使用方向图算法进行UMI错误校正和去重。此脚本实现了一个略微修改的方向图算法,允许UMI之间的汉明距离为1,见Fu, Y., et al, (2018)。使用唯一分子标识符消除RNA-seq和小RNA-seq中的PCR重复。 https://doi.org/10.1186/s12864-018-4933-1。它使用五倍阈值,而原始算法使用两倍计数阈值。
UMI去重过程是线程化的,以显著加快处理速度。
脚本依赖项
- bowtie2
- samtools
- cutadapt
安装说明
创建在本地机器上运行的可执行文件。
在开始之前,您需要在计算机上安装Rust。可以从这里安装Rust: 安装Rust
使用cargo安装二进制文件。
cargo install sumi
编译的二进制文件将位于 ~/.cargo/bin/
。使用以下命令使其可执行
chmod +x ~/.cargo/bin/sumi
如果需要,可以更改许多选项。使用 -h
或 --help
标志查看选项。
./sumi --help
基本用法
可以使用 sumi
可执行文件运行应用程序。以下命令用于分析位于 /home/user/data/
的具有miRNA bowtie2参考文件,5'端12 bp UMI结构为"NNNNNCCANNTCANNNNN",并使用8个线程的文件。
cd fastqs
./sumi --reference /home/user/data/miRNA --umi-regex "^(.{5})CCA(.{2})TCA(.{5})" --threads 8
要检查isomiRs并生成计数和比对信息,请运行以下命令。注意,isomiR和标准miRNA的百分比是分开的。
./sumi --reference /home/user/data/miRNA --isomir --write-metrics
这可以用于分析具有12 bp 3' UMI的文库,在比对时允许1个碱基错配。确保正则表达式模式包含一个锚点,例如 '$'
,使其针对3'端是特定的。
./sumi --reference /home/user/data/miRNA --3p --umi-regex "(.{12}$)" --mismatch
在Qiagen库中分析等位mRNA时,请使用此命令,无需指定UMI位于3'端或正则表达式模式。
./sumi --reference /home/user/data/miRNA --isomir --qiagen
依赖项
~56MB
~1M SLoC