1 个不稳定版本
0.1.0 | 2022年5月13日 |
---|
#31 在 #text-encoding
325KB
90 行
detchar
一个简单的命令行界面(CLI),用于检测文件中的字符编码;类似于 chardet
。
作为对 chardetng 的一个非常薄的包装实现。
示例文本文件位于 ./data
,来源于 此Kaggle数据集。
多线程
chardetng
有一个功能,可以将每个文本文件的可能编码并行化消除。可以通过用 multithreading
功能编译 detchar
来启用此功能。
然而,默认情况下是禁用的,因为在处理大量文件时,通常仅对文件进行并行化更有效,例如使用GNU parallel
。
cat my_file_list.txt | parallel detchar
依赖项
~7.5MB
~194K SLoC