1 个稳定版本

1.0.4 2023 年 7 月 31 日

#794 in 机器学习

GPL-3.0 许可证

560KB
404

Underthesea Core

Underthesea Core 是流行的自然语言处理库 Underthesea 的强大扩展,包括一系列高效的数据预处理工具和训练机器学习模型。使用 Rust 构建以实现最佳性能,Underthesea Core 提供了快速的处理速度,易于实现,并提供了 Python 绑定以实现与现有项目的无缝集成。此扩展是希望构建高性能 NLP 系统并交付准确可靠结果的开发人员的必备工具。

用法

CRFFeaturizer

>>> from underthesea_core import CRFFeaturizer
>>> features = ["T[-1]", "T[0]", "T[1]"]
>>> dictionary = set(["sinh viên"])
>>> featurizer = CRFFeaturizer(features, dictionary)
>>> sentences = [[["sinh", "X"], ["viên", "X"], ["đi", "X"], ["học", "X"]]]
>>> featurizer.process(sentences)
[[['T[-1]=BOS', 'T[0]=sinh', 'T[1]=viên'],
  ['T[-1]=sinh', 'T[0]=viên', 'T[1]=đi'],
  ['T[-1]=viên', 'T[0]=đi', 'T[1]=học'],
  ['T[-1]=đi', 'T[0]=học', 'T[1]=EOS']]]

发布工作流程

  1. Cargo.tomlpyproject.toml 中更改版本
  2. 使用提交 Publish Underthesea Core 推送到分支 core
  • 这将触发 release-pypi-core 操作
  1. pypi 中检查最新版本

注意*:运行自托管的 macos-arm 构建

依赖关系

~11MB
~216K SLoC