#生物信息学 #基因组学 #单细胞 #剪接 #序列比对

应用 splici

一种用于生成用于序列比对的剪接和未剪接参考转录本的工具

1个不稳定版本

0.1.1 2023年9月20日

#single-cell中排名第9

MIT许可证

29KB
651

splici

splici算法的Rust实现,用于构建剪接/未剪接转录本

概述

此实现完全用Rust编写,并利用了三个生物信息学库

  1. gtftools - 用于解析GTF文件
  2. bedrs - 用于基因组区间算术
  3. faiquery - 用于快速查询索引的fasta

用法

splici introns \
    -f <your.fasta> \
    -g <your.gtf> \
    -o splici.fasta.gz;

这将生成一个splici参考fasta,使用gtf文件中找到的转录本和外显子,并从提供的索引fasta中进行查询。

此命令期望fasta使用samtools faidx进行索引。

入门

您可以使用ggetrs ensembl ref下载最新的ensembl DNA和GTF。

ggetrs ensembl ref -D -d dna,gtf

解压缩并索引参考DNA。

gunzip Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz 
samtools faidx Homo_sapiens.GRCh38.dna.primary_assembly.fa

然后运行splici以生成您的splici参考fasta

splici introns \
    -f Homo_sapiens.GRCh38.dna.primary_assembly.fa \
    -g Homo_sapiens.GRCh38.*.gtf.gz \
    -o splici.fasta.gz;

背景

splici算法由(He et al. 2022)描述,是剪接 + 内含子序列的缩写。

它描述了一种隔离所有输入转录本的内含子区域并生成剪接转录本及其内含子组件序列的方法。

该算法对每个基因单独应用。

首先识别出基因的所有转录本。然后识别出这些转录本的所有内含子区域。这些内含子区域由转录本的范围减去外显子区间定义(参见 内部)。接下来,每个内含子区域的两端都会通过一些参数化的数量进行扩展,这允许与内含子区域和外显子区域之间的接头对齐。等位基因之间的内含子区域通常具有高度重叠,因此在最终序列中执行合并步骤以避免冗余区间。然后将这些内含子区域赋予一个唯一名称并添加到splici参考中。

通过连接每个转录本的外显子区间生成剪接转录本。这些按照转录本ID命名并添加到splici参考中。

参考文献

  1. He, D. 等。Alevin-fry解锁快速、准确且节省内存的单细胞RNA测序数据量化。Nat Methods 19,316–322 (2022)。

依赖关系

~12MB
~169K SLoC