3 个版本 (重大变更)
0.3.0 | 2022 年 8 月 16 日 |
---|---|
0.2.0 | 2022 年 8 月 16 日 |
0.1.0 | 2022 年 8 月 12 日 |
#1465 in 文本处理
12KB
182 行
rust_lemmatizer
用 Rust 编写的词元化包。
使用方法
在文件上
要词元化文件中的文本,使用以下参数运行 get_lemmas 脚本。此脚本保存到名为 "lemmatized.csv" 或 "lemmatized.txt" 的文件中,具体取决于用户输入。
指定你的文件名、包含词元及其相关形式的 csv 文件的路径,以及你想要的返回格式(csv、txt 或 Vec)。
cargo run --bin get_lemmas [YOUR FILENAME] [PATH TO LEMMA FILE] [OUTPUT - txt, csv, or vec]
示例命令如下
cargo run --bin get_lemmas src/lemma_example.txt src/lemma_dict.csv csv
在字符串上
要词元化字符串,运行 get_lemmas_from_string 脚本。传递以下命令,指定你的字符串、包含词元及其形式的文件,以及你想要的返回格式(csv、txt 或 Vec)。
cargo run --bin get_lemmas_from_string ["YOUR STRING"] [PATH TO LEMMA FILE] [OUTPUT - txt, csv, or vec]
例如
cargo run --bin get_lemmas_from_string "This is an example string." src/lemma_dict.csv vec
在你的项目中使用
用于词元化文件
use rust_lemmatizer::get_words;
get_words(filename, dict_name, file_output);
用于字符串上的词元化
use rust_lemmatizer::get_words_from_string;
get_words_from_string(string_to_analyze, dict_name, return_type);
词元列表和格式
来源
包含在 GitHub 仓库 中的词元列表由 此存储库 的 林伟 提供。
列表是通过参考英国国家语料库(BNC)、NodeBox Linguistics 和山根雅马萨的词元列表创建的。从原始存储库
此词元列表“原样提供”,可免费用于任何研究和/或教育目的。列表目前包含 186,523 个单词(标记)和 84,487 个词元组。
格式
要为库创建自己的词元列表,创建一个类似于此处包含的 csv 文件。使用两列,第一列包含你的词元,第二列包含词元的逗号分隔形式。为每列包含标题。
依赖项
~1.3–1.7MB
~21K SLoC