2个版本

0.1.1 2024年5月19日
0.1.0 2024年5月19日

#93生物学

MIT 许可证

170KB
2.5K SLoC

sumi: 一个简单的small RNA umi分析

Rust Continuous integration pages-build-deployment

针对UMI的小RNA文库的简单分析

除了标准的miRNA外,还可以用来检测isomiRs的存在。

它使用方向图算法进行UMI错误校正和去重。此脚本实现了一个略微修改的方向图算法,允许UMI之间的汉明距离为1,见Fu, Y., et al, (2018)。使用唯一分子标识符消除RNA-seq和小RNA-seq中的PCR重复。 https://doi.org/10.1186/s12864-018-4933-1。它使用五倍阈值,而原始算法使用两倍计数阈值。

UMI去重过程是线程化的,以显著加快处理速度。

脚本依赖项

  • bowtie2
  • samtools
  • cutadapt

安装说明

创建在本地机器上运行的可执行文件。

在开始之前,您需要在计算机上安装Rust。可以从这里安装Rust: 安装Rust

使用cargo安装二进制文件。

cargo install sumi

编译的二进制文件将位于 ~/.cargo/bin/。使用以下命令使其可执行

chmod +x ~/.cargo/bin/sumi 

如果需要,可以更改许多选项。使用 -h--help 标志查看选项。

./sumi --help

基本用法

可以使用 sumi 可执行文件运行应用程序。以下命令用于分析位于 /home/user/data/ 的具有miRNA bowtie2参考文件,5'端12 bp UMI结构为"NNNNNCCANNTCANNNNN",并使用8个线程的文件。

cd fastqs
./sumi --reference /home/user/data/miRNA --umi-regex "^(.{5})CCA(.{2})TCA(.{5})" --threads 8

要检查isomiRs并生成计数和比对信息,请运行以下命令。注意,isomiR和标准miRNA的百分比是分开的。

./sumi --reference /home/user/data/miRNA --isomir --write-metrics

这可以用于分析具有12 bp 3' UMI的文库,在比对时允许1个碱基错配。确保正则表达式模式包含一个锚点,例如 '$',使其针对3'端是特定的。

./sumi --reference /home/user/data/miRNA --3p --umi-regex "(.{12}$)" --mismatch

在Qiagen库中分析等位mRNA时,请使用此命令,无需指定UMI位于3'端或正则表达式模式。

./sumi --reference /home/user/data/miRNA --isomir --qiagen

依赖项

~56MB
~1M SLoC