1个不稳定版本

0.1.0 2024年8月26日

#85生物学

Download history · Rust 包仓库 92/week @ 2024-08-20 · Rust 包仓库

93 每月下载量
barkit 中使用

GPL-3.0 许可证

32KB
764

BarKit

[!WARNING]
此工具处于开发中。请在可用时使用第一个发布版本。

BarKit(条形码工具包)是一个用于操作FASTQ条形码的工具包。

从源码构建

cargo build --release
sudo mv barkit /usr/local/bin/

提取命令

提取命令旨在使用基于提供的模式的近似正则表达式匹配来从FASTQ读取中解析条形码序列。

所有解析的条形码序列都被移动到读取头,基质量由冒号分隔

@SEQ_ID UMI:ATGC:???? CB:ATGC:???? SB:ATGC:????
  • UMI:独特分子标识符(分子条形码)
  • CB:细胞条形码
  • SB:样本条形码

示例

解析每个正向读取的前十二个核苷酸作为UMI

barkit extract -1 <IN_FASTQ1> -2 <IN_FASTQ2> -p "^(?P<UMI>[ATGCN]{12})" -o <OUT_FASTQ1> -O <OUT_FASTQ2>

atgccat序列之前解析每个反向读取的前十六个核苷酸作为细胞条形码

barkit extract -1 <IN_FASTQ1> -2 <IN_FASTQ2> -P "^(?P<CB>[ATGCN]{16})atgccat" -o <OUT_FASTQ1> -O <OUT_FASTQ2>

[!NOTE] 使用小写字母作为模糊匹配模式。

依赖关系

~11–20MB
~237K SLoC