#tokenizer #alpino #dutch #language #wrapper #low-level #alpino-tokenizer

sys alpino-tokenizer-sys

针对荷兰语的 Alpino 标准化程序的低级包装器

3 个不稳定版本

0.2.1 2020 年 7 月 2 日
0.2.0 2020 年 4 月 9 日
0.1.0 2019 年 10 月 11 日

8#dutch

每月下载量 27 次

LGPL-2.1-or-later

76MB
1.5M SLoC

C 1.5M SLoC // 0.0% comments Rust 34 SLoC

alpino-tokenizer

此 Rust crate 提供了一个基于有限状态转换机的分词器。它主要设计用于使用Alpino分词器进行荷兰语处理,但原则上,你可以加载任何语言的分词器。

Alpino 分词器的转换器可以下载。我们将定期同步转换器,因为 Alpino 中的分词器会更新。

您可以使用alpino-tokenizer crate 将分词器集成到您的 Rust 程序中。

为了方便,提供了一个用于在 shell 或 shell 脚本中对文本进行分词的alpino-tokenize 命令行工具。

安装 alpino-tokenize 命令行工具

cargo

可以使用 cargo 安装 alpino-tokenize 工具。

$ cargo install alpino-tokenize

Nix

此存储库也是一个 Nix flake。如果您使用支持 flakes 的 Nix 版本,可以使用以下方式启动带有 alpino-tokenize 的 shell:

$ nix shell github:danieldk/alpino-tokenizer

许可证

版权所有 2019-2020 Daniël de Kok

根据 Apache 许可证 2.0 版(“许可证”);除非您按照许可证规定或书面同意,否则不得使用此文件。您可以在以下位置获取许可证副本:

http://www.apache.org/licenses/LICENSE-2.0

除非适用法律要求或书面同意,否则在许可证下分发的软件按“原样”基础分发,不提供任何明示或暗示的保证。有关许可协议中规定的权限和限制,请参阅许可证。

依赖项