1 个不稳定版本
0.1.0 | 2022年10月4日 |
---|
#1718 在 文本处理
16KB
303 行
文体学分析
一个在给定文本上执行文体学操作的包。该包包括Mendenhall关于词长度的绘图实现、Kilgariff卡方算法以及查找只出现在两个被比较文本中的一个文本中的单词(单词)的算法。
使用方法
该包中的主要函数可以这样调用
use stylometry::mendenhall_file;
// or, if graphing a string rather than reading from a file: use stylometry::mendenhall_string;
mendenhall("path/to/file.txt"); // this will output a .png of a line graph of the text's word lengths
use stylometry::scatterplot;
// or, if graphing a string rather than reading from a file: use stylometry::mendenhall_string;
scatterplot("path/to/file.txt"); // this will output a .png showing a scatterplot of the text's word lengths, similar to the line graph in the mendenhall function
use stylometry::kilgariff;
kilgariff("path/to/file1_known_author.txt", "path/to/file2_disputed_author.txt"); // this will print the result of the Kilgariff chi-squared formula for texts you're comparing
use stylometry::hapax;
hapax("path/to/file1.txt", "path/to/file2.txt"); // this will return a vec of words only found in file1 (and which only occur once in that file)
use stylometry::hapax_single;
hapax("path/to/file1.txt"); // this will return a vec of words only occurring once in file1
您还可以使用以下函数获取包含单词长度和出现频率(例如,(4,15)将显示四个字母的单词出现了十五次)的元组的 vec
use stylometry::unique_and_total;
unique_and_total("path/to/file1.txt");
依赖项
~15MB
~120K SLoC