#csv #lemmatization #nlp #package #words #txt #lemmatizing

bin+lib rust_lemmatizer

用于与词元和对应单词的 .csv 字典一起使用的词元化包

3 个版本 (重大变更)

0.3.0 2022 年 8 月 16 日
0.2.0 2022 年 8 月 16 日
0.1.0 2022 年 8 月 12 日

#1465 in 文本处理

GPL-3.0-or-later

12KB
182

rust_lemmatizer

用 Rust 编写的词元化包。

使用方法

在文件上

要词元化文件中的文本,使用以下参数运行 get_lemmas 脚本。此脚本保存到名为 "lemmatized.csv" 或 "lemmatized.txt" 的文件中,具体取决于用户输入。

指定你的文件名、包含词元及其相关形式的 csv 文件的路径,以及你想要的返回格式(csv、txt 或 Vec)。

cargo run --bin get_lemmas [YOUR FILENAME] [PATH TO LEMMA FILE] [OUTPUT - txt, csv, or vec]

示例命令如下

cargo run --bin get_lemmas src/lemma_example.txt src/lemma_dict.csv csv 

在字符串上

要词元化字符串,运行 get_lemmas_from_string 脚本。传递以下命令,指定你的字符串、包含词元及其形式的文件,以及你想要的返回格式(csv、txt 或 Vec)。

cargo run --bin get_lemmas_from_string ["YOUR STRING"] [PATH TO LEMMA FILE] [OUTPUT - txt, csv, or vec]

例如

cargo run --bin get_lemmas_from_string "This is an example string." src/lemma_dict.csv vec

在你的项目中使用

用于词元化文件

use rust_lemmatizer::get_words;

get_words(filename, dict_name, file_output);

用于字符串上的词元化

use rust_lemmatizer::get_words_from_string;

get_words_from_string(string_to_analyze, dict_name, return_type);

词元列表和格式

来源

包含在 GitHub 仓库 中的词元列表由 此存储库林伟 提供。

列表是通过参考英国国家语料库(BNC)、NodeBox Linguistics 和山根雅马萨的词元列表创建的。从原始存储库

此词元列表“原样提供”,可免费用于任何研究和/或教育目的。列表目前包含 186,523 个单词(标记)和 84,487 个词元组。

格式

要为库创建自己的词元列表,创建一个类似于此处包含的 csv 文件。使用两列,第一列包含你的词元,第二列包含词元的逗号分隔形式。为每列包含标题。

依赖项

~1.3–1.7MB
~21K SLoC