1个不稳定版本
0.1.0 | 2023年10月11日 |
---|
28 在 #write-file
145KB
1K SLoC
scispeak
一个将sci-seq-v3读取转换为kallisto兼容格式的Rust解析器
一个用于筛选sci-seq-v3读取并转换为10X风格格式的命令行工具。
概述
此工具用于根据各自的条形码白名单筛选sciseq读取,然后以10X读取的样式输出fastq文件格式。
此解析器解析sci-seq-v3格式,识别细胞条形码和UMI,并将新文件写入以类似于10X序列构造的形式,供尚未采用sci-seq格式的其他工具使用。
sci-rna-seq3 序列构造
sci-rna-seq3 序列构造组织如下
┌─'illumina_p5:29'
├─'i5:10'
├─'truseq_read_1_adapter:33'
│ ┌─'hairpin_barcode:10'
│ ├─'hairpin_adapter:6'
├─read_1─────────────────────┤
│ ├─'umi:8'
──RNA───────┤ └─'cell_bc:10'
├─'poly_T:98'
├─'read_2:98'
│ ┌─'ME:19'
├─i7_primer──────────────────┤
│ └─'s7:15'
├─'i7:10'
└─'illumina_p7:24'
由 seqspec 提供的视觉展示。
因此,生成的R1和R2文件简化为
# R1
[linker][adapter][umi][barcode]
# R2
[cDNA]
使用方法
这是一个单命令CLI工具。它只需要R1和R2文件的路径
scispeak \
-i data/SRR7827205_sample_R1.fastq.gz \
-I data/SRR7827205_sample_R2.fastq.gz;
然而,它可以通过多个压缩线程加速
scispeak \
-i data/SRR7827205_sample_R1.fastq.gz \
-I data/SRR7827205_sample_R2.fastq.gz \
-t 8;
并且可以存储一个日志文件以保存匹配统计信息
scispeak \
-i data/SRR7827205_sample_R1.fastq.gz \
-I data/SRR7827205_sample_R2.fastq.gz \
-t 8 \
-l;
输出
此程序每次运行将输出3个文件
<args.prefix>_R1.fastq.gz
: 一个包含[barcode][UMI]
构造的所有通过白名单读取的fastq文件。<args.prefix>_R2.fastq.gz
: 所有通过白名单读取的R2的未更改的fastq文件。<args.prefix>_log.json
: 包含运行过滤统计信息的日志文件。
依赖项
~6–18MB
~154K SLoC