4个版本 (重大变更)
0.6.0 | 2021年8月19日 |
---|---|
0.5.0 | 2021年8月19日 |
0.4.0 | 2021年8月19日 |
0.3.0 | 2021年8月18日 |
#50 in #cleanup
10KB
175 行
🔥 cleanse
一个小型工具,用于清理定界符数据,使其可由标准Unix工具消费。
搜索词
清理TSV数据。清理CSV数据。
概述
在底层,此工具使用csv
crate将数据解析为CSV格式,并尊重引号和转义规则。对于每个字段,cleanse
将尝试以下三个操作:
- 在字段内部,将任何
delimiter
字符的实例替换为 - 在字段内部,将任何
\n
终止符字符的实例替换为 - 在字段内部,将任何无效的UTF8替换为UTF8替换字符。
如果对字段进行了任何更改,将记录记录号、字段号和更改。
示例
$ cat data.tsv | cleanse -o cleansed.tsv -
Aug 18 15:28:02.556 INFO cleanse: Record number 23485, field number 35: [TerminatorReplacement]
Aug 18 15:28:02.724 INFO cleanse: Record number 31036, field number 24: [DelimiterReplacement]
Aug 18 15:28:02.984 INFO cleanse: Record number 44053, field number 35: [TerminatorReplacement]
Aug 18 15:28:03.456 INFO cleanse: Record number 66273, field number 35: [TerminatorReplacement]
Aug 18 15:28:05.149 INFO cleanse: Record number 150669, field number 14: [FixedEncoding]
依赖项
~10–17MB
~194K SLoC