1 个不稳定版本

0.1.0 2022年5月13日

#31#text-encoding

自定义许可证

325KB
90

detchar

一个简单的命令行界面(CLI),用于检测文件中的字符编码;类似于 chardet

作为对 chardetng 的一个非常薄的包装实现。

示例文本文件位于 ./data,来源于 此Kaggle数据集

多线程

chardetng 有一个功能,可以将每个文本文件的可能编码并行化消除。可以通过用 multithreading 功能编译 detchar 来启用此功能。

然而,默认情况下是禁用的,因为在处理大量文件时,通常仅对文件进行并行化更有效,例如使用GNU parallel

cat my_file_list.txt | parallel detchar

依赖项

~7.5MB
~194K SLoC