#field #cleanup #text #data #cli #clean #up

app cleanse

一个小型工具,用于清理定界符(TSV/CSV)数据

4个版本 (重大变更)

0.6.0 2021年8月19日
0.5.0 2021年8月19日
0.4.0 2021年8月19日
0.3.0 2021年8月18日

#50 in #cleanup

Unlicense/MIT

10KB
175

🔥 cleanse

一个小型工具,用于清理定界符数据,使其可由标准Unix工具消费。

搜索词

清理TSV数据。清理CSV数据。

概述

在底层,此工具使用csvcrate将数据解析为CSV格式,并尊重引号和转义规则。对于每个字段,cleanse将尝试以下三个操作:

  1. 在字段内部,将任何delimiter字符的实例替换为
  2. 在字段内部,将任何\n终止符字符的实例替换为
  3. 在字段内部,将任何无效的UTF8替换为UTF8替换字符。

如果对字段进行了任何更改,将记录记录号、字段号和更改。

示例

$ cat data.tsv | cleanse -o cleansed.tsv -
Aug 18 15:28:02.556  INFO cleanse: Record number 23485, field number 35: [TerminatorReplacement]
Aug 18 15:28:02.724  INFO cleanse: Record number 31036, field number 24: [DelimiterReplacement]
Aug 18 15:28:02.984  INFO cleanse: Record number 44053, field number 35: [TerminatorReplacement]
Aug 18 15:28:03.456  INFO cleanse: Record number 66273, field number 35: [TerminatorReplacement]
Aug 18 15:28:05.149  INFO cleanse: Record number 150669, field number 14: [FixedEncoding]

依赖项

~10–17MB
~194K SLoC