4 个版本
0.1.3 | 2024年3月13日 |
---|---|
0.1.2 | 2023年12月8日 |
0.1.1 | 2023年7月24日 |
0.1.0 | 2023年6月1日 |
#711 在 开发工具
每月 3,014 次下载
在 cloudproof 中使用
88KB
2K SLoC
数据匿名化
数据匿名化
是将数据以某种方式转换,使其在没有额外信息的情况下无法识别个人。这通常是为了保护正在收集或处理数据的人的隐私。
匿名化技术可以包括删除识别信息(如姓名和地址),用假名替换识别信息,以及汇总数据,使单独的数据点无法区分。需要注意的是,虽然匿名化可以降低重新识别的风险,但它并非万无一失,必须与其他安全措施结合使用,以完全保护个人数据。
功能
Cosmian 匿名化提供多种方法
-
哈希:将数据转换为难以逆转的固定长度表示,并提供高匿名性。使用
anonymization::Hasher
应用各种哈希函数。 -
噪声添加:向数据中添加随机噪声以保护隐私。使用
anonymization::NoiseGenerator
将各种类型的噪声分布应用于float
、integer
和date
。 -
词遮罩:隐藏文本中的敏感词。使用
anonymization::WordMasker
遮罩一组词。 -
词分词:通过用标记替换敏感词来从文本中删除敏感词。使用
anonymization::WordTokenizer
替换一组词。 -
词模式遮罩:将文本中的敏感模式替换为特定的字符或字符串。使用
anonymization::WordPatternMasker
将指定的正则表达式模式替换为替换字符串。 -
数字聚合:将数字四舍五入到期望的十的幂次。此方法用于降低数据的粒度,防止个人重新识别。使用
anonymization::NumberAggregator
来四舍五入float
和int
值。 -
日期聚合:根据指定的时间单位对日期进行四舍五入。这有助于保留原始数据的总体时间范围,同时去除可能识别个人的具体细节。使用
anonymization::DateAggregator
来四舍五入date
。 -
数字缩放:使用指定的因子缩放数值数据。这在匿名化数据的同时保留其相对比例可能很有用。使用
anonymization::NumberScaler
来四舍五入float
和int
值。
日期格式
警告:匿名化函数的日期输入为RFC3339字符串格式,这与ISO格式略有不同。
ISO格式 | RFC 3339 |
---|---|
2023-04-07T12:34:56 | 2023-04-07T12:34:56Z |
2023-04-27T16:23:00+00:00 | 2023-04-27T16:23:00+00:00 |
2023-04-27T16:23:00+05:00 | 2023-04-27T16:23:00+05:00 |
2023-04-27T16:23:00-05:00 | 2023-04-27T16:23:00-05:00 |
依赖关系
~6–14MB
~171K SLoC