5 个版本 (3 个重大更改)
0.85.0 | 2023年10月18日 |
---|---|
0.76.0 | 2023年2月23日 |
0.74.2 | 2023年1月24日 |
0.74.1 | 2023年1月23日 |
0.70.0 | 2022年10月25日 |
#1993 在 解析实现
370KB
1.5K SLoC
Nushell 生物信息学
Nushell 的生物信息学插件。此插件将大多数常见的生物信息学格式解析为结构化数据,以便您可以使用 nushell 更有效地使用它们。
快速设置
去获取 nushell,它很棒。假设您已安装了 rust 工具链。然后回来!
# clone this repo
git clone https://github.com/Euphrasiologist/nu_plugin_bio
# change into the repo directory
cd nu_plugin_bio
# build
# it's quite a long compile time...
cargo build --release
# register the plugin
register nu_plugin_bio/target/release/nu_plugin_bio
# see the current file formats currently supported below
# now you can just use open, and the file extension will be auto-detected.
# there are some test files in the tests/ dir.
open ./tests/test.fasta
| get id
# if you want to add flags you have to explicitly use from <x>
# e.g. if you want descriptions in fasta files to be parsed.
open --raw ./tests/test.fasta
| from fasta -d
| first
后端是一个 noodles
包装器,一个优秀的全 Rust 生物信息学 I/O 库。
目标
旨在支持以下内容
- BAM 1.6
- BCF 2.2
- bcf.gz
- VCF 4.3
- vcf.gz
- BED(目前只支持 3)
- CRAM 3.0
- FASTA
- fa.gz
- FASTQ
- fq.gz
- GFF3
- GTF 2.2
- SAM 1.6
- GFA 1.0
- gfa.gz
请注意,由于我们无法访问 nushell 的引擎状态,因此在当前状态下,使用 nu_plugin
的性能可能不是最优的,因此需要将整个数据结构加载到内存中。还需要对大文件进行测试。
更多?
如果您想添加的生物信息学格式,请告诉我,或者添加一个 PR。
依赖项
~23–35MB
~538K SLoC