#barcode #sequencing #bioinformatics

bin+lib barkit

处理FASTQ文件中条码的工具

1 个不稳定版本

0.1.0 2024年8月26日

#200生物学

Download history · Rust 包仓库 114/week @ 2024-08-21 · Rust 包仓库

114 每月下载次数

GPL-3.0 许可证

55KB
859

BarKit

[!WARNING]
此工具正在开发中。请使用可用的第一个版本。

BarKit(条码工具包)是一个用于操作FASTQ条码的工具包。

从源码构建

cargo build --release
sudo mv barkit /usr/local/bin/

提取命令

提取命令旨在使用提供的模式基于近似正则表达式匹配从FASTQ读取中解析条码序列。

所有解析出的条码序列都移动到读取头中,以冒号分隔的碱基质量分开

@SEQ_ID UMI:ATGC:???? CB:ATGC:???? SB:ATGC:????
  • UMI: 唯一分子标识符(分子条码)
  • CB: 细胞条码
  • SB: 样本条码

示例

解析每个正向读取的前十二个核苷酸作为UMI

barkit extract -1 <IN_FASTQ1> -2 <IN_FASTQ2> -p "^(?P<UMI>[ATGCN]{12})" -o <OUT_FASTQ1> -O <OUT_FASTQ2>

解析每个反向读取在atgccat序列之前的十六个核苷酸作为细胞条码

barkit extract -1 <IN_FASTQ1> -2 <IN_FASTQ2> -P "^(?P<CB>[ATGCN]{16})atgccat" -o <OUT_FASTQ1> -O <OUT_FASTQ2>

[!NOTE] 使用小写字母进行模糊匹配模式。

依赖关系

~11–20MB
~238K SLoC