1个不稳定版本

0.1.0 2024年6月29日

#491 in 文本处理

AGPL-3.0-or-later

3.5MB
65 代码行

n-gram分析

这是一个分析原始文本语料库n-gram的工具。它可以用来分析文本文件的n-gram并生成找到的n-gram的报告。我使用这个工具获取双元组数据以优化键盘布局,在处理原始文本时,我使用以下命令从文本文件中去除所有标点符号和特殊字符:

sed 's/[^a-zA-Z ]//g' "text.txt" | tr 'A-Z' 'a-z' | sed -E 's/[[:space:]]+/ /g' >> text-clean.txt

示例数据

./data 目录中有一些示例数据。您可以使用这些数据来测试工具。这是从 corpusdata.org 的维基百科语料库 中提取的小部分。

依赖项

~4–6.5MB
~108K SLoC