#tokenizer #ascii #language #morsels #morsels-indexer #cli #stemmers

morsels_lang_latin

适用于 morsels 的 Ascii 标记化程序,带有词干提取器

34 个版本 (7 个破坏性版本)

0.7.3 2022年10月24日
0.6.2 2022年10月8日
0.2.1 2022年7月24日
0.0.11 2022年1月5日
0.0.6 2021年12月30日

#116 in #tokenizer


2 个包中使用 (通过 morsels_indexer)

MIT 许可证

155KB
2.5K SLoC

Morsels 语言包

这是一个为 morsels_indexer 命令行工具提供的标记化程序包,不建议直接使用。

依赖项

~3.5MB
~46K SLoC