SELMR — Rust实现 // Lib.rs

#621 in 算法

每月 123 次下载

MIT 许可证

96KB
2K SLoC

此crate提供库，用于生成和使用类似于语言模型的工作的简单文本数据结构。这些数据结构不使用实值向量嵌入；相反，它们使用多重集的数学概念，并直接从纯文本数据中得出。

这些数据结构被称为简单可解释语言多重集表示（SELMRs），并包含从给定约束的一组文档中的所有多词表达式和所有多词上下文组合创建的多重集。多重集可用于下游NLP任务，如文本分类和搜索，类似于实值向量嵌入。

SELMRs产生无任何随机性的可解释结果，并允许与词汇、语言和术语注释的明确链接。没有训练模型，也没有应用降维。

有关如何使用此包的信息，请参阅此处。

~15MB
~261K SLoC