1 个稳定版本
1.0.4 | 2023 年 7 月 31 日 |
---|
#794 in 机器学习
560KB
404 行
Underthesea Core
Underthesea Core 是流行的自然语言处理库 Underthesea 的强大扩展,包括一系列高效的数据预处理工具和训练机器学习模型。使用 Rust 构建以实现最佳性能,Underthesea Core 提供了快速的处理速度,易于实现,并提供了 Python 绑定以实现与现有项目的无缝集成。此扩展是希望构建高性能 NLP 系统并交付准确可靠结果的开发人员的必备工具。
用法
CRFFeaturizer
>>> from underthesea_core import CRFFeaturizer
>>> features = ["T[-1]", "T[0]", "T[1]"]
>>> dictionary = set(["sinh viên"])
>>> featurizer = CRFFeaturizer(features, dictionary)
>>> sentences = [[["sinh", "X"], ["viên", "X"], ["đi", "X"], ["học", "X"]]]
>>> featurizer.process(sentences)
[[['T[-1]=BOS', 'T[0]=sinh', 'T[1]=viên'],
['T[-1]=sinh', 'T[0]=viên', 'T[1]=đi'],
['T[-1]=viên', 'T[0]=đi', 'T[1]=học'],
['T[-1]=đi', 'T[0]=học', 'T[1]=EOS']]]
发布工作流程
- 在
Cargo.toml
和pyproject.toml
中更改版本 - 使用提交
Publish Underthesea Core
推送到分支core
- 这将触发
release-pypi-core
操作
- 在 pypi 中检查最新版本
注意*:运行自托管的 macos-arm
构建
依赖关系
~11MB
~216K SLoC