2个版本

0.1.1	2021年5月15日
0.1.0	2021年1月30日

#1842 in 算法

用于 rscompress

MIT 许可证

6KB

rscompress

Rust的压缩库，专注于科学数据。

免责声明

这是在博士期间开发的一些压缩算法的重新编写和合并

论文可以从https://doi.org/10.5445/IR/1000105055下载

架构

库分为一个基础库和四个支持库。基础库协调支持库。所有压缩算法遵循相同的基本结构

使用变换来解相关性数据
如果需要有损压缩，则近似数据
编码数据

此外，检查每个步骤是否按预期执行。

                   +----------------+      lossless      +----------+
                   |                |                    |          |
Start   +------>   | Transformation |   +------------>   |  Coding  |   +------>   End
                   |                |                    |          |
                   +----------------+                    +----------+

                           +                                   ^
                           |                                   |
                           |  lossy                            |
                           |                                   |
                           v                                   |
                                                               |
                   +---------------+                           |
                   |               |                           |
                   | Approximation |  +------------------------+
                   |               |
                   +---------------+

此库将遵循相同的原理。

变换

变换是使用不同的字母表表示相同信息的算法。好的变换算法可以消除数据中的冗余信息。数学函数可以看作是数据序列的变换。序列 1 1 2 3 5 8 13 21 .. 可以表示为 f(x) = f(x-1) + f(x-2)。我们将字母表A（整数）表示的信息映射到字母表B（字母+整数），这使得信息更紧凑。需要注意的是，所有变换都必须有两个属性

对数据进行转换算法处理，不会丢失信息。
所有转换算法都是可逆的，因此可以从新的字母表重建原始表示。

近似

近似是牺牲信息以实现更好的压缩的算法。给定一个阈值 theta（这可以是绝对值或相对值），算法将数据从字母表A映射到B，信息丢失在预期的阈值之内。一个近似的例子是来自小学的 ~= 操作符，例如 1/3 ~= 0.3。近似具有以下性质

将近似算法应用于数据，会导致信息丢失。
近似算法是不可逆的。
信息丢失将保证在阈值 theta 之内。

编码

编码是实际压缩发生的算法。信息以尽可能紧凑的方式保存在磁盘上。例如 Huffman 或算术编码。

校验和

校验和是检查数据完整性的算法，例如 Adler-32。

rscompress-approximation

2个版本

rscompress

免责声明

架构

变换

近似

编码

校验和

无运行时依赖