#1465 in 文本处理

GPL-3.0-or-later

12KB
182 行

rust_lemmatizer

用 Rust 编写的词元化包。

使用方法

要词元化文件中的文本，使用以下参数运行 get_lemmas 脚本。此脚本保存到名为 "lemmatized.csv" 或 "lemmatized.txt" 的文件中，具体取决于用户输入。

指定你的文件名、包含词元及其相关形式的 csv 文件的路径，以及你想要的返回格式（csv、txt 或 Vec）。

cargo run --bin get_lemmas [YOUR FILENAME] [PATH TO LEMMA FILE] [OUTPUT - txt, csv, or vec]

示例命令如下

cargo run --bin get_lemmas src/lemma_example.txt src/lemma_dict.csv csv

要词元化字符串，运行 get_lemmas_from_string 脚本。传递以下命令，指定你的字符串、包含词元及其形式的文件，以及你想要的返回格式（csv、txt 或 Vec）。

cargo run --bin get_lemmas_from_string ["YOUR STRING"] [PATH TO LEMMA FILE] [OUTPUT - txt, csv, or vec]

例如

cargo run --bin get_lemmas_from_string "This is an example string." src/lemma_dict.csv vec

用于词元化文件

use rust_lemmatizer::get_words;

get_words(filename, dict_name, file_output);

用于字符串上的词元化

use rust_lemmatizer::get_words_from_string;

get_words_from_string(string_to_analyze, dict_name, return_type);

包含在 GitHub 仓库中的词元列表由此存储库的林伟提供。

列表是通过参考英国国家语料库（BNC）、NodeBox Linguistics 和山根雅马萨的词元列表创建的。从原始存储库

此词元列表“原样提供”，可免费用于任何研究和/或教育目的。列表目前包含 186,523 个单词（标记）和 84,487 个词元组。

要为库创建自己的词元列表，创建一个类似于此处包含的 csv 文件。使用两列，第一列包含你的词元，第二列包含词元的逗号分隔形式。为每列包含标题。

~1.3–1.7MB
~21K SLoC