3 个不稳定版本
0.2.1 | 2020 年 7 月 2 日 |
---|---|
0.2.0 | 2020 年 4 月 9 日 |
0.1.0 | 2019 年 10 月 11 日 |
8 在 #dutch
每月下载量 27 次
76MB
1.5M SLoC
alpino-tokenizer
此 Rust crate 提供了一个基于有限状态转换机的分词器。它主要设计用于使用Alpino分词器进行荷兰语处理,但原则上,你可以加载任何语言的分词器。
Alpino 分词器的转换器可以下载。我们将定期同步转换器,因为 Alpino 中的分词器会更新。
您可以使用alpino-tokenizer crate 将分词器集成到您的 Rust 程序中。
为了方便,提供了一个用于在 shell 或 shell 脚本中对文本进行分词的alpino-tokenize 命令行工具。
安装 alpino-tokenize
命令行工具
cargo
可以使用 cargo 安装 alpino-tokenize
工具。
$ cargo install alpino-tokenize
Nix
此存储库也是一个 Nix flake。如果您使用支持 flakes 的 Nix 版本,可以使用以下方式启动带有 alpino-tokenize
的 shell:
$ nix shell github:danieldk/alpino-tokenizer
许可证
版权所有 2019-2020 Daniël de Kok
根据 Apache 许可证 2.0 版(“许可证”);除非您按照许可证规定或书面同意,否则不得使用此文件。您可以在以下位置获取许可证副本:
http://www.apache.org/licenses/LICENSE-2.0
除非适用法律要求或书面同意,否则在许可证下分发的软件按“原样”基础分发,不提供任何明示或暗示的保证。有关许可协议中规定的权限和限制,请参阅许可证。