15 个版本 (7 个重大变更)
0.8.3 | 2024年3月18日 |
---|---|
0.7.0 | 2023年12月1日 |
0.6.1 | 2023年10月30日 |
0.3.1 | 2023年7月14日 |
#106 in 科学
每月 104 次下载
在 align-cli 中使用
7.5MB
17K SLoC
匹配这些碎片!
在 Rust 中处理质谱数据。此 crate 旨在处理具有大量歧义和复杂性的非常复杂的肽段。它围绕 ComplexPeptide
和 LinearPeptide
展开,这些编码了 ProForma 规范。此外,此 crate 还使您能够读取 mgf,进行 光谱注释(BU/MD/TD),查找 同位素序列,进行 肽段对齐,访问 IMGT 基因库,以及 读取已识别的肽段文件。
库功能
- 读取 pro forma 序列('level 2-ProForma + mass spectrum compliant + glycans compliant',旨在完全支持整个规范)
- 从任何支持的 pro forma 肽段生成理论碎片,并控制碎片化模型
- 从卫星离子(w、d 和 v)生成碎片
- 生成糖基化碎片
- 为未知位置的修饰生成理论碎片
- 为嵌合光谱生成理论碎片
- 读取 mgf 文件
- 将光谱匹配到生成的碎片
- 广泛使用
uom
进行编译时单位检查 - 根据质量对肽段进行对齐(算法将随着时间的推移进行大量调整)(有关更多信息,请参阅
Stitch
,但算法已得到改进)
示例用法
# fn main() -> Result<(), rustyms::error::CustomError> {
# let raw_file_path = "data/annotated_example.mgf";
// Open some data and see if the given peptide is a valid match
use rustyms::{*, system::{Charge, e}};
let peptide = ComplexPeptide::pro_forma("Q[Gln->pyro-Glu]VQEVSERTHGGNFD")?;
let spectrum = rawfile::mgf::open(raw_file_path)?;
let model = Model::ethcd();
let fragments = peptide.generate_theoretical_fragments(Charge::new::<e>(2.0), &model);
let annotated = spectrum[0].annotate(peptide, &fragments, &model, MassMode::Monoisotopic);
let fdr = annotated.fdr(&fragments, &model);
// This is the incorrect sequence for this spectrum so the FDR will indicate this
# dbg!(&fdr, fdr.sigma(), fdr.fdr(), fdr.score());
assert!(fdr.sigma() < 2.0);
# Ok(()) }
# fn main() -> Result<(), rustyms::error::CustomError> {
// Check how this peptide compares to a similar peptide (using `align`)
// (same sequence, repeated for easy reference)
use rustyms::{*, align::*};
let first_peptide = LinearPeptide::pro_forma("Q[Gln->pyro-Glu]VQEVS")?;
let second_peptide = LinearPeptide::pro_forma("E[Glu->pyro-Glu]VQVES")?;
let alignment = align::<4>(&first_peptide, &second_peptide,
matrix::BLOSUM62, Tolerance::new_ppm(10.0), AlignType::GLOBAL);
# dbg!(&alignment);
let stats = alignment.stats();
# //assert_eq!(stats.identical, 3); // Only three positions are identical
assert_eq!(stats.mass_similar, 6); // All positions are mass similar
# Ok(()) }
编译功能
rustyms 将多个较小的模块组合成一个统一的结构。它具有多个功能,允许您在需要时对其进行精简(所有功能默认启用)。
identification
- 提供访问读取多种识别肽格式的方法的权限。align
- 提供访问基于质量的肽对齐方法。imgt
- 允许访问包含注释的抗体原始序列的IMGT数据库。rayon
- 允许使用rayon进行并行迭代,主要用于imgt
,也可用于连续对齐。
依赖关系
~8.5MB
~167K SLoC