6个版本 (3个重大更改)
0.4.0 | 2024年8月3日 |
---|---|
0.3.1 | 2024年4月17日 |
0.2.1 | 2024年3月28日 |
0.1.0 | 2024年3月10日 |
#621 in 算法
每月 123 次下载
96KB
2K SLoC
此crate提供库,用于生成和使用类似于语言模型的工作的简单文本数据结构。这些数据结构不使用实值向量嵌入;相反,它们使用多重集的数学概念,并直接从纯文本数据中得出。
这些数据结构被称为简单可解释语言多重集表示(SELMRs),并包含从给定约束的一组文档中的所有多词表达式和所有多词上下文组合创建的多重集。多重集可用于下游NLP任务,如文本分类和搜索,类似于实值向量嵌入。
SELMRs产生无任何随机性的可解释结果,并允许与词汇、语言和术语注释的明确链接。没有训练模型,也没有应用降维。
有关如何使用此包的信息,请参阅此处。
依赖项
~15MB
~261K SLoC