#genomic #data #bioinformatics #region #machine-learning #tokenization #set

gtokenizers

一个以区域集合数据为重点的 Rust 库,用于对基因组数据进行标记化。

7 个版本

0.0.18 2023年11月6日
0.0.17 2023年10月19日

#531机器学习

Download history 2/week @ 2024-03-09 32/week @ 2024-03-30 9/week @ 2024-04-06

每月 56 次下载

MIT 许可证

68KB
469

🧬 gtokenizers


gtokenizers 是一个用于快速灵活地标记化基因组数据的库,适用于生物信息学机器学习模型。该库的目的是提供一个简单且高度高效的接口,以与现代机器学习工作流程兼容的方式标记化基因组数据。

安装

在您的终端中运行以下命令

cargo add gtokenizers

或者将以下内容添加到您的 Cargo.toml 文件中

gtokenizers = "0.0.11"

快速入门

您可以创建一个从宇宙(或词汇)文件创建标记化器的示例

use gtokenizers::tokenizers::TreeTokenizer;
use gtokenizers::models::region_set::RegionSet;
use std::path::Path;

let vocab_path = Path::new("path/to/vocab.bed");
let t = TreeTokenizer::from(&vocab_path);

let rs = RegionSet::from("path/to/regions.bed");

let tokens = t.tokenize(&rs);

for t in tokens {
    println!("{}, {}", t, t.id);
}

更多信息

此包仍处于早期开发阶段。我们将在不久的将来添加更多功能和文档。如果您有任何问题或建议,请随时提出问题或拉取请求。

依赖关系

~210KB