#nlp #perform #operations #length #word #file #mendenhall

文体学分析

一个执行文体学操作的包

1 个不稳定版本

0.1.0 2022年10月4日

#1718文本处理

GPL-3.0-or-later

16KB
303

文体学分析

一个在给定文本上执行文体学操作的包。该包包括Mendenhall关于词长度的绘图实现、Kilgariff卡方算法以及查找只出现在两个被比较文本中的一个文本中的单词(单词)的算法。

使用方法

该包中的主要函数可以这样调用

use stylometry::mendenhall_file;
// or, if graphing a string rather than reading from a file: use stylometry::mendenhall_string;

mendenhall("path/to/file.txt"); // this will output a .png of a line graph of the text's word lengths
use stylometry::scatterplot;
// or, if graphing a string rather than reading from a file: use stylometry::mendenhall_string;

scatterplot("path/to/file.txt"); // this will output a .png showing a scatterplot of the text's word lengths, similar to the line graph in the mendenhall function
use stylometry::kilgariff;

kilgariff("path/to/file1_known_author.txt", "path/to/file2_disputed_author.txt"); // this will print the result of the Kilgariff chi-squared formula for texts you're comparing
use stylometry::hapax;

hapax("path/to/file1.txt", "path/to/file2.txt"); // this will return a vec of words only found in file1 (and which only occur once in that file)
use stylometry::hapax_single;

hapax("path/to/file1.txt"); // this will return a vec of words only occurring once in file1

您还可以使用以下函数获取包含单词长度和出现频率(例如,(4,15)将显示四个字母的单词出现了十五次)的元组的 vec

use stylometry::unique_and_total;

unique_and_total("path/to/file1.txt");

依赖项

~15MB
~120K SLoC