1个不稳定版本
新 0.1.0 | 2024年8月26日 |
---|
#85 在 生物学
93 每月下载量
在 barkit 中使用
32KB
764 行
BarKit
[!WARNING]
此工具处于开发中。请在可用时使用第一个发布版本。
BarKit(条形码工具包)是一个用于操作FASTQ条形码的工具包。
从源码构建
cargo build --release
sudo mv barkit /usr/local/bin/
提取命令
提取命令旨在使用基于提供的模式的近似正则表达式匹配来从FASTQ读取中解析条形码序列。
所有解析的条形码序列都被移动到读取头,基质量由冒号分隔
@SEQ_ID UMI:ATGC:???? CB:ATGC:???? SB:ATGC:????
- UMI:独特分子标识符(分子条形码)
- CB:细胞条形码
- SB:样本条形码
示例
解析每个正向读取的前十二个核苷酸作为UMI
barkit extract -1 <IN_FASTQ1> -2 <IN_FASTQ2> -p "^(?P<UMI>[ATGCN]{12})" -o <OUT_FASTQ1> -O <OUT_FASTQ2>
在atgccat
序列之前解析每个反向读取的前十六个核苷酸作为细胞条形码
barkit extract -1 <IN_FASTQ1> -2 <IN_FASTQ2> -P "^(?P<CB>[ATGCN]{16})atgccat" -o <OUT_FASTQ1> -O <OUT_FASTQ2>
[!NOTE] 使用小写字母作为模糊匹配模式。
依赖关系
~11–20MB
~237K SLoC