#生物信息学 #文件格式 #停止 #序列 #fasta #结束 #orf

bin+lib ffforf

另一个 fasta/q/x 文件格式解析器。经过良好的模糊测试。

3 个版本 (破坏性)

0.3.0 2024 年 3 月 18 日
0.2.0 2022 年 10 月 31 日
0.1.0 2022 年 10 月 10 日

生物学 中排名 113

Download history 128/week @ 2024-03-13 27/week @ 2024-03-20 20/week @ 2024-03-27 46/week @ 2024-04-03

每月下载次数 85

MIT/Apache

25KB
438

ffforf

ffforf 是一个用于识别开放阅读框的 Rust 库和命令行工具。它使用 jetscii 库进行高效搜索终止密码子,使用 needletail 进行快速 FASTA 解析,并将 ORF 转换为氨基酸序列。

安装

要在您的 Rust 项目中使用 ORF Finder 库,请将其添加到您的 Cargo.toml 文件中

[dependencies]
ffforf = "0.3.0"

要安装 ffforf 二进制文件,只需执行以下命令:

运行二进制文件

要运行

ffforf genome.fna > translated_sequences.faa

输出看起来像

>Chr18_rc_2_3557_3872
ISTNLCTFLCSDTEFTPRVTNAKDSDTFDGILTLNNRQKHAERIAYNRGAGSGIGGGRGPGRPPITEIPLEELLACEEPEAKAARTRRRGATLALTALGRYIFN

这是标志(contig/染色体),是否为反向互补,阅读框以及起始和结束基因组坐标。

注意

  • 它不会优雅地失败,但如果更多人使用它,我会添加更多命令行参数、帮助信息等...

  • 最小 ORF 大小为 50,现在可以通过修改源代码进行更改。请提出一个问题,我会立即修复它。

  • 未知序列会通过读取,例如 TTFLYLNYIITXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXVIGSYKEHFSVSTRDKPHVTKGRKERCNGNRITYYVIQNNFPALPTVSILYSLFQTQMIGRKNFA

使用库

要在 Rust 代码中使用 ORF Finder 库,请导入 crate 并使用 find_all_orfs 函数

use orf_finder::{find_all_orfs, Orf, Strand};

fn main() {
    let sequence = b"ATGCTAGTAACTAGCGTAA";
    let min_orf_length = 5;
    let orfs = find_all_orfs(sequence, min_orf_length);

    for orf in orfs {
        println!(
            "ORF: Start: {}, End: {}, Strand: {}, Reading Frame: {}",
            orf.start, orf.end, orf.strand, orf.reading_frame
        );
    }
}

您还可以查看 src/bin/ffforf.rs 以获取更多潜在用途。

许可证

此项目受 MIT 许可证的许可。通常可以轻松找到副本...

依赖关系

~3MB
~57K SLoC