#生物信息学 #nushell #nushell-plugin #fasta #数据 #noodles #文件格式

bin+lib nu_plugin_bio

在 nushell 中解析和操作常见的生物信息学格式

5 个版本 (3 个重大更改)

0.85.0 2023年10月18日
0.76.0 2023年2月23日
0.74.2 2023年1月24日
0.74.1 2023年1月23日
0.70.0 2022年10月25日

#1993解析实现

MIT 和可能 CC-PDDC

370KB
1.5K SLoC

Nushell 生物信息学

Nushell 的生物信息学插件。此插件将大多数常见的生物信息学格式解析为结构化数据,以便您可以使用 nushell 更有效地使用它们。

快速设置

去获取 nushell,它很棒。假设您已安装了 rust 工具链。然后回来!

# clone this repo
git clone https://github.com/Euphrasiologist/nu_plugin_bio
# change into the repo directory
cd nu_plugin_bio
# build
# it's quite a long compile time...
cargo build --release
# register the plugin
register nu_plugin_bio/target/release/nu_plugin_bio

# see the current file formats currently supported below
# now you can just use open, and the file extension will be auto-detected.

# there are some test files in the tests/ dir.
open ./tests/test.fasta
    | get id

# if you want to add flags you have to explicitly use from <x>
# e.g. if you want descriptions in fasta files to be parsed.

open --raw ./tests/test.fasta 
    | from fasta -d
    | first

后端是一个 noodles 包装器,一个优秀的全 Rust 生物信息学 I/O 库。

目标

旨在支持以下内容

  • BAM 1.6
  • BCF 2.2
    • bcf.gz
  • VCF 4.3
    • vcf.gz
  • BED(目前只支持 3)
  • CRAM 3.0
  • FASTA
    • fa.gz
  • FASTQ
    • fq.gz
  • GFF3
  • GTF 2.2
  • SAM 1.6
  • GFA 1.0
    • gfa.gz

请注意,由于我们无法访问 nushell 的引擎状态,因此在当前状态下,使用 nu_plugin 的性能可能不是最优的,因此需要将整个数据结构加载到内存中。还需要对大文件进行测试。

更多?

如果您想添加的生物信息学格式,请告诉我,或者添加一个 PR。

依赖项

~23–35MB
~538K SLoC