#spectra #fragmentation #bio #compile-time #proforma #massspectrometry

rustyms

一个用于处理蛋白质组质谱数据并将肽段匹配到光谱的库

15 个版本 (7 个重大变更)

0.8.3 2024年3月18日
0.7.0 2023年12月1日
0.6.1 2023年10月30日
0.3.1 2023年7月14日

#106 in 科学

Download history • Rust 包仓库 11/week @ 2024-04-30 • Rust 包仓库 1/week @ 2024-05-07 • Rust 包仓库 3/week @ 2024-05-28 • Rust 包仓库 32/week @ 2024-07-02 • Rust 包仓库 104/week @ 2024-07-30 • Rust 包仓库

每月 104 次下载
align-cli 中使用

MIT/Apache 许可

7.5MB
17K SLoC

匹配这些碎片!

在 Rust 中处理质谱数据。此 crate 旨在处理具有大量歧义和复杂性的非常复杂的肽段。它围绕 ComplexPeptideLinearPeptide 展开,这些编码了 ProForma 规范。此外,此 crate 还使您能够读取 mgf,进行 光谱注释(BU/MD/TD),查找 同位素序列,进行 肽段对齐,访问 IMGT 基因库,以及 读取已识别的肽段文件

库功能

  • 读取 pro forma 序列('level 2-ProForma + mass spectrum compliant + glycans compliant',旨在完全支持整个规范)
  • 从任何支持的 pro forma 肽段生成理论碎片,并控制碎片化模型
    • 从卫星离子(w、d 和 v)生成碎片
    • 生成糖基化碎片
    • 为未知位置的修饰生成理论碎片
    • 为嵌合光谱生成理论碎片
  • 读取 mgf 文件
  • 将光谱匹配到生成的碎片
  • 广泛使用 uom 进行编译时单位检查
  • 根据质量对肽段进行对齐(算法将随着时间的推移进行大量调整)(有关更多信息,请参阅 Stitch,但算法已得到改进)

示例用法

# fn main() -> Result<(), rustyms::error::CustomError> {
# let raw_file_path = "data/annotated_example.mgf";
// Open some data and see if the given peptide is a valid match
use rustyms::{*, system::{Charge, e}};
let peptide = ComplexPeptide::pro_forma("Q[Gln->pyro-Glu]VQEVSERTHGGNFD")?;
let spectrum = rawfile::mgf::open(raw_file_path)?;
let model = Model::ethcd();
let fragments = peptide.generate_theoretical_fragments(Charge::new::<e>(2.0), &model);
let annotated = spectrum[0].annotate(peptide, &fragments, &model, MassMode::Monoisotopic);
let fdr = annotated.fdr(&fragments, &model);
// This is the incorrect sequence for this spectrum so the FDR will indicate this
# dbg!(&fdr, fdr.sigma(), fdr.fdr(), fdr.score());
assert!(fdr.sigma() < 2.0);
# Ok(()) }
# fn main() -> Result<(), rustyms::error::CustomError> {
// Check how this peptide compares to a similar peptide (using `align`)
// (same sequence, repeated for easy reference)
use rustyms::{*, align::*};
let first_peptide = LinearPeptide::pro_forma("Q[Gln->pyro-Glu]VQEVS")?;
let second_peptide = LinearPeptide::pro_forma("E[Glu->pyro-Glu]VQVES")?;
let alignment = align::<4>(&first_peptide, &second_peptide,
                 matrix::BLOSUM62, Tolerance::new_ppm(10.0), AlignType::GLOBAL);
# dbg!(&alignment);
let stats = alignment.stats();
# //assert_eq!(stats.identical, 3); // Only three positions are identical
assert_eq!(stats.mass_similar, 6); // All positions are mass similar
# Ok(()) }

编译功能

rustyms 将多个较小的模块组合成一个统一的结构。它具有多个功能,允许您在需要时对其进行精简(所有功能默认启用)。

  • identification - 提供访问读取多种识别肽格式的方法的权限。
  • align - 提供访问基于质量的肽对齐方法。
  • imgt - 允许访问包含注释的抗体原始序列的IMGT数据库。
  • rayon - 允许使用rayon进行并行迭代,主要用于imgt,也可用于连续对齐。

依赖关系

~8.5MB
~167K SLoC