#bam #sam #生物信息学 #cli

app bam2seq

使用CIGAR和MD标签从.bam文件中提取读段和重建的参考序列

3个版本

0.1.2 2022年9月10日
0.1.1 2022年9月10日
0.1.0 2022年9月10日

#280 in 生物学

MPL-2.0 许可证

7KB
100

#+title: Bam2Seq

[https://crates.io/crates/bam2seq] [https://crates.io/crates/bam2seq]

此工具接受包含CIGAR字符串、读段和MD标签的BAM文件,并输出包含读段对和重建参考序列的.seq文件。

** 安装

直接使用cargo从 [https://crates.io/crates/bam2seq] 安装:#begin_src cargo install bam2seq #end_src

简单地克隆仓库,并可选地安装二进制文件。#begin_src git clone https://github.com/ragnargrootkoerkamp/bam2seq.git cd bam2seq cargo install --path . #end_src

** 使用 #begin_src cargo run --release -- <input.bam> <output.seq> [--no-clip] [--min-len] #end_src

  • input.bam :: 输入BAM文件。
  • output.seq :: 输出.seq文件。默认为input.seq
  • --no-clip :: 禁用从读段中剪切软剪切区域。
  • --min-len :: 仅输出至少此长度的(剪切过的)读段。

这会输出一个.seq文件,其外观如下:#begin_src

ACTGATGA <ACAGATG read 2 <reference 2 ... #end_src

** 链接

  • 这与 [[https://github.com/mlafave/sam2pairwise][sam2pairwise]] 非常相似,但输出格式更简单。
  • 实现中的所有工作都由 [[https://docs.rs/bam/latest/bam/][BAM] crate] 完成。

依赖项

~5–14MB
~187K SLoC