4 个版本

0.1.3 2024年3月13日
0.1.2 2023年12月8日
0.1.1 2023年7月24日
0.1.0 2023年6月1日

#711开发工具

Download history 354/week @ 2024-04-22 894/week @ 2024-04-29 381/week @ 2024-05-06 312/week @ 2024-05-13 320/week @ 2024-05-20 424/week @ 2024-05-27 407/week @ 2024-06-03 428/week @ 2024-06-10 850/week @ 2024-06-17 703/week @ 2024-06-24 1300/week @ 2024-07-01 947/week @ 2024-07-08 649/week @ 2024-07-15 1376/week @ 2024-07-22 392/week @ 2024-07-29 455/week @ 2024-08-05

每月 3,014 次下载
cloudproof 中使用

自定义许可证

88KB
2K SLoC

Rust 1.5K SLoC // 0.0% comments Python 251 SLoC // 0.1% comments

数据匿名化

数据匿名化 是将数据以某种方式转换,使其在没有额外信息的情况下无法识别个人。这通常是为了保护正在收集或处理数据的人的隐私。

匿名化技术可以包括删除识别信息(如姓名和地址),用假名替换识别信息,以及汇总数据,使单独的数据点无法区分。需要注意的是,虽然匿名化可以降低重新识别的风险,但它并非万无一失,必须与其他安全措施结合使用,以完全保护个人数据。

功能

Cosmian 匿名化提供多种方法

  • 哈希:将数据转换为难以逆转的固定长度表示,并提供高匿名性。使用 anonymization::Hasher 应用各种哈希函数。

  • 噪声添加:向数据中添加随机噪声以保护隐私。使用 anonymization::NoiseGenerator 将各种类型的噪声分布应用于 floatintegerdate

  • 词遮罩:隐藏文本中的敏感词。使用 anonymization::WordMasker 遮罩一组词。

  • 词分词:通过用标记替换敏感词来从文本中删除敏感词。使用 anonymization::WordTokenizer 替换一组词。

  • 词模式遮罩:将文本中的敏感模式替换为特定的字符或字符串。使用 anonymization::WordPatternMasker 将指定的正则表达式模式替换为替换字符串。

  • 数字聚合:将数字四舍五入到期望的十的幂次。此方法用于降低数据的粒度,防止个人重新识别。使用 anonymization::NumberAggregator 来四舍五入 floatint 值。

  • 日期聚合:根据指定的时间单位对日期进行四舍五入。这有助于保留原始数据的总体时间范围,同时去除可能识别个人的具体细节。使用 anonymization::DateAggregator 来四舍五入 date

  • 数字缩放:使用指定的因子缩放数值数据。这在匿名化数据的同时保留其相对比例可能很有用。使用 anonymization::NumberScaler 来四舍五入 floatint 值。

日期格式

警告:匿名化函数的日期输入为RFC3339字符串格式,这与ISO格式略有不同。

ISO格式 RFC 3339
2023-04-07T12:34:56 2023-04-07T12:34:56Z
2023-04-27T16:23:00+00:00 2023-04-27T16:23:00+00:00
2023-04-27T16:23:00+05:00 2023-04-27T16:23:00+05:00
2023-04-27T16:23:00-05:00 2023-04-27T16:23:00-05:00

依赖关系

~6–14MB
~171K SLoC