#cache #replace #neural #machine #lru #neural-network

mlcr

基于自适应机器学习的缓存跟踪/替换策略

2 个不稳定版本

使用旧的 Rust 2015

0.2.0 2017 年 2 月 6 日
0.1.0 2016 年 12 月 25 日

文件系统 中排名第 1193

MIT 许可证

10KB
141

TFS 已被 RedoxFS 替换,并且不再维护,TFS 的多数功能已集成到 RedoxFS 中

TFS

TFS:下一代文件系统

TFS 是一个模块化、快速且功能丰富的下一代文件系统,采用现代技术以实现高性能、高空间效率和高度可扩展性。

TFS 的创建是为了满足 Redox OS 对现代文件系统的需求,作为对 ZFS 的替代,由于其单体设计,ZFS 的实现速度较慢。

TFS 受 ZFS 灵感启发,但同时也旨在模块化且易于实现。

TFS 与 terminalcloud 的同名文件系统无关。

尽管许多组件已完整,但 TFS 本身尚未准备好使用。

MIT/X11 permissive license.

GitHub Stars

设计目标

TFS 的设计考虑以下目标

  • 并发

TFS 包含非常少的锁,并旨在尽可能适用于多线程系统。它使用多个真正并发的结构来管理数据,并通过核心数量进行线性扩展。 这也许是 TFS 的最重要的特性。

  • 异步

TFS 是异步的:操作可以独立发生;对磁盘的写和读不需要阻塞。

  • 全磁盘压缩

TFS 是第一个通过我们称之为 RACC(随机访问集群压缩)的方案实现完整全磁盘压缩的文件系统。这意味着每个集群都进行压缩,仅略微影响性能。据估计,您可以得到 60-120% 的更多可用空间。

  • 修订历史

TFS 存储每个文件的修订历史,而不增加额外开销。这意味着您可以将任何文件还原到早期版本,自动备份系统,而无需复制带来的额外开销。

  • 数据完整性

与 ZFS 一样,TFS 存储文件的完整校验和(不仅仅是元数据),而且是在父块上完成的。这意味着几乎所有数据损坏都会在读取时被检测到。

  • 写时复制语义

与Btrfs和ZFS类似,TFS使用CoW(Copy on Write)语义,这意味着集群永远不会被直接覆盖,而是被复制并写入新的集群。

  • O(1)递归复制

与其他一些文件系统一样,TFS可以在常数时间内进行递归复制,但有一个独特的补充:TFS甚至在变异后也不会复制。如何?它单独维护文件的段,这样只需要复制更新的段。

  • 保证原子性

系统永远不会进入不一致的状态(除非有硬件故障),这意味着意外断电永远不会损坏系统。

  • 改进的缓存

TFS在缓存磁盘以提高磁盘访问速度方面投入了大量精力。它使用机器学习来学习模式并预测未来的使用,以减少缓存未命中次数。TFS还将内存缓存压缩,减少了所需的内存量。

  • 更好的文件监控

CoW非常适合高性能、可扩展的文件监控,但遗憾的是,只有少数文件系统采用了这一点。TFS就是其中之一。

  • 全部内存安全

TFS只使用用Rust编写的组件。因此,只有在标记为unsafe的代码中才可能发生内存不安全,而这会得到额外的仔细检查。

  • 全面测试覆盖

TFS旨在全面测试。这通过立即揭示大量错误类别,提供了相对较强的正确性保证。

  • SSD友好

TFS通过重新定位已死亡的扇区来避免SSD的写入限制。

  • 改进的垃圾回收

TFS使用布隆过滤器进行高效和快速的垃圾回收。TFS允许文件系统垃圾回收器在后台运行,而不会阻塞文件系统的其余部分。

常见问题解答

为什么将SPECK作为默认加密算法?

  • SPECK是一种相对较新的加密算法,但已经经历了大量的(无效的)密码分析,因此相对安全。它具有非常好的性能和简单的实现。可移植性是TFS设计的重要部分,真正没有副作用的可移植AES实现比许多人想象的要困难得多(特别是,大多数可移植实现中存在SubBytes的问题)。SPECK没有这个问题,因此可以以最小的努力安全地便携式实现。

TFS和ZFS有多相似?

  • 实际上并不相似。它们共享许多基本思想,但除此之外,它们基本上没有联系。但ZFS的设计在很大程度上影响了TFS。

TFS是Redox专属的吗?

  • 不是,它从未计划只用于Redox。

全盘压缩是如何工作的?

  • 据我所知,全盘压缩是TFS独有的。它通过将尽可能多的“页面”(虚拟数据块)收集到一个“集群”(分配单元)中来实现。通过这样做,可以通过简单地解压缩相应的集群来读取页面。

为什么ZMicro如此慢?会影响TFS的性能吗?

  • ZMicro之所以如此慢,是因为它在位级别上工作,以牺牲性能的代价换取了出色的压缩比。这种令人难以置信的慢速性能通过减少写入次数来得到回报。事实上,使用ZMicro的50%以上的分配将只写入一个扇区,而不是3个。其次,无论你的磁盘有多快,它都不会接近ZMicro的性能,因为磁盘操作本质上很慢,从整体上看,压缩性能实际上并不重要。

可扩展哈希或B+树?

  • 都不是。TFS使用树和哈希表的组合:嵌套哈希表,这是一种哈希树的形式。其想法是,而不是重新分配,在桶中创建一个新的子表。

设计资源

我写了一些关于TFS设计的文章

规范

完整的规范可以在 specification.tex 中找到,要渲染它,安装 texlive 或其他带有 XeTeX 的发行版,并运行

xelatex --shell-escape specification.tex

然后打开名为 specification.pdf 的文件


lib.rs:

MLCR:基于机器学习的缓存替换

MLCR训练一个神经网络来“猜测”缓存块再次被访问之前将过去多长时间。换句话说,它提供了一个有资格的猜测来近似理想的时间机器Bélády算法。

MLCR很慢,因为它需要训练一个神经网络,但在许多情况下,增加的精度通过大大减少缓存未命中次数而得到回报。因此,它仅在缓存介质明显慢于训练网络(例如硬盘或互联网下载)时使用。

依赖关系

~2MB
~36K SLoC