7 个版本
0.0.18 | 2023年11月6日 |
---|---|
0.0.17 | 2023年10月19日 |
#531 在 机器学习
每月 56 次下载
68KB
469 行
🧬 gtokenizers
gtokenizers
是一个用于快速灵活地标记化基因组数据的库,适用于生物信息学机器学习模型。该库的目的是提供一个简单且高度高效的接口,以与现代机器学习工作流程兼容的方式标记化基因组数据。
安装
在您的终端中运行以下命令
cargo add gtokenizers
或者将以下内容添加到您的 Cargo.toml
文件中
gtokenizers = "0.0.11"
快速入门
您可以创建一个从宇宙(或词汇)文件创建标记化器的示例
use gtokenizers::tokenizers::TreeTokenizer;
use gtokenizers::models::region_set::RegionSet;
use std::path::Path;
let vocab_path = Path::new("path/to/vocab.bed");
let t = TreeTokenizer::from(&vocab_path);
let rs = RegionSet::from("path/to/regions.bed");
let tokens = t.tokenize(&rs);
for t in tokens {
println!("{}, {}", t, t.id);
}
更多信息
此包仍处于早期开发阶段。我们将在不久的将来添加更多功能和文档。如果您有任何问题或建议,请随时提出问题或拉取请求。
依赖关系
~210KB