#genomics #bioinformatics #10x #write-file #log-file #cli #sciseq

app scispeak

一个将Sci-RNA-Seq3文件转换为10X Genomics兼容FASTQ文件的工具

1个不稳定版本

0.1.0 2023年10月11日

28#write-file

MIT 许可证

145KB
1K SLoC

scispeak

一个将sci-seq-v3读取转换为kallisto兼容格式的Rust解析器

一个用于筛选sci-seq-v3读取并转换为10X风格格式的命令行工具。

概述

此工具用于根据各自的条形码白名单筛选sciseq读取,然后以10X读取的样式输出fastq文件格式。

此解析器解析sci-seq-v3格式,识别细胞条形码和UMI,并将新文件写入以类似于10X序列构造的形式,供尚未采用sci-seq格式的其他工具使用。

sci-rna-seq3 序列构造

sci-rna-seq3 序列构造组织如下

            ┌─'illumina_p5:29'
            ├─'i5:10'
            ├─'truseq_read_1_adapter:33'
            │                            ┌─'hairpin_barcode:10'
            │                            ├─'hairpin_adapter:6'
            ├─read_1─────────────────────┤
            │                            ├─'umi:8'
──RNA───────┤                            └─'cell_bc:10'
            ├─'poly_T:98'
            ├─'read_2:98'
            │                            ┌─'ME:19'
            ├─i7_primer──────────────────┤
            │                            └─'s7:15'
            ├─'i7:10'
            └─'illumina_p7:24'

seqspec 提供的视觉展示。

因此,生成的R1和R2文件简化为

# R1
[linker][adapter][umi][barcode]

# R2
[cDNA]

使用方法

这是一个单命令CLI工具。它只需要R1和R2文件的路径

scispeak \
    -i data/SRR7827205_sample_R1.fastq.gz \
    -I data/SRR7827205_sample_R2.fastq.gz;

然而,它可以通过多个压缩线程加速

scispeak \
    -i data/SRR7827205_sample_R1.fastq.gz \
    -I data/SRR7827205_sample_R2.fastq.gz \
    -t 8;

并且可以存储一个日志文件以保存匹配统计信息

scispeak \
    -i data/SRR7827205_sample_R1.fastq.gz \
    -I data/SRR7827205_sample_R2.fastq.gz \
    -t 8 \
    -l;

输出

此程序每次运行将输出3个文件

  1. <args.prefix>_R1.fastq.gz: 一个包含[barcode][UMI]构造的所有通过白名单读取的fastq文件。
  2. <args.prefix>_R2.fastq.gz: 所有通过白名单读取的R2的未更改的fastq文件。
  3. <args.prefix>_log.json: 包含运行过滤统计信息的日志文件。

依赖项

~6–18MB
~154K SLoC