5 个不稳定版本
0.4.0 | 2023年11月6日 |
---|---|
0.3.0 | 2020年10月8日 |
0.2.2 | 2020年7月2日 |
0.2.1 | 2020年4月20日 |
0.2.0 | 2020年4月9日 |
#209 in 构建工具
55 每月下载量
58KB
643 代码行
alpino-tokenizer
这个 Rust 包提供了一种基于有限状态转换器的分词器。它主要是为使用荷兰语的 Alpino 分词器而设计的,但在原则上,你可以加载任何语言的分词器。
Alpino 分词器的转换器可以 下载。我们将定期同步转换器,因为 Alpino 中的分词器会更新。
你可以使用 alpino-tokenizer 包将分词器集成到你的 Rust 程序中。
为了方便,提供了一个用于在 shell 或 shell 脚本中分词文本的 alpino-tokenize 命令行实用工具。
安装 alpino-tokenize
命令行实用工具
cargo
可以使用 cargo 安装 alpino-tokenize
实用工具
$ cargo install alpino-tokenize
Nix
此仓库也是一个 Nix flake。如果你使用的 Nix 版本支持 flakes,你可以使用以下命令启动一个包含 alpino-tokenize
的 shell
$ nix shell github:danieldk/alpino-tokenizer
许可证
版权所有 2019-2020 Daniël de Kok
根据 Apache 许可证 2.0 版("许可证")授权;除非适用法律或书面同意,否则不得使用此文件。您可以在以下位置获得许可证副本:
https://apache.ac.cn/licenses/LICENSE-2.0
除非适用法律要求或书面同意,否则在许可证下分发的软件按"原样"提供,不提供任何明示或暗示的保证或条件。有关许可证的具体语言管理权限和限制,请参阅许可证。
依赖项
~7.5MB
~130K SLoC