1 个不稳定版本
新 0.1.0 | 2024年8月26日 |
---|
#200 在 生物学
114 每月下载次数
55KB
859 行
BarKit
[!WARNING]
此工具正在开发中。请使用可用的第一个版本。
BarKit(条码工具包)是一个用于操作FASTQ条码的工具包。
从源码构建
cargo build --release
sudo mv barkit /usr/local/bin/
提取命令
提取命令旨在使用提供的模式基于近似正则表达式匹配从FASTQ读取中解析条码序列。
所有解析出的条码序列都移动到读取头中,以冒号分隔的碱基质量分开
@SEQ_ID UMI:ATGC:???? CB:ATGC:???? SB:ATGC:????
- UMI: 唯一分子标识符(分子条码)
- CB: 细胞条码
- SB: 样本条码
示例
解析每个正向读取的前十二个核苷酸作为UMI
barkit extract -1 <IN_FASTQ1> -2 <IN_FASTQ2> -p "^(?P<UMI>[ATGCN]{12})" -o <OUT_FASTQ1> -O <OUT_FASTQ2>
解析每个反向读取在atgccat
序列之前的十六个核苷酸作为细胞条码
barkit extract -1 <IN_FASTQ1> -2 <IN_FASTQ2> -P "^(?P<CB>[ATGCN]{16})atgccat" -o <OUT_FASTQ1> -O <OUT_FASTQ2>
[!NOTE] 使用小写字母进行模糊匹配模式。
依赖关系
~11–20MB
~238K SLoC