5 个不稳定版本

0.4.0 2023年11月6日
0.3.0 2020年10月8日
0.2.2 2020年7月2日
0.2.1 2020年4月20日
0.2.0 2020年4月9日

#209 in 构建工具

Download history 5/week @ 2024-03-28 1/week @ 2024-04-04

55 每月下载量

LGPL-2.1-or-later

58KB
643 代码行

alpino-tokenizer

这个 Rust 包提供了一种基于有限状态转换器的分词器。它主要是为使用荷兰语的 Alpino 分词器而设计的,但在原则上,你可以加载任何语言的分词器。

Alpino 分词器的转换器可以 下载。我们将定期同步转换器,因为 Alpino 中的分词器会更新。

你可以使用 alpino-tokenizer 包将分词器集成到你的 Rust 程序中。

为了方便,提供了一个用于在 shell 或 shell 脚本中分词文本的 alpino-tokenize 命令行实用工具。

安装 alpino-tokenize 命令行实用工具

cargo

可以使用 cargo 安装 alpino-tokenize 实用工具

$ cargo install alpino-tokenize

Nix

此仓库也是一个 Nix flake。如果你使用的 Nix 版本支持 flakes,你可以使用以下命令启动一个包含 alpino-tokenize 的 shell

$ nix shell github:danieldk/alpino-tokenizer

许可证

版权所有 2019-2020 Daniël de Kok

根据 Apache 许可证 2.0 版("许可证")授权;除非适用法律或书面同意,否则不得使用此文件。您可以在以下位置获得许可证副本:

https://apache.ac.cn/licenses/LICENSE-2.0

除非适用法律要求或书面同意,否则在许可证下分发的软件按"原样"提供,不提供任何明示或暗示的保证或条件。有关许可证的具体语言管理权限和限制,请参阅许可证。

依赖项

~7.5MB
~130K SLoC