#embedding #word #et #al #finalfusion #training #text

bin+lib finalfrontier

使用子词单位训练/使用词嵌入

16 个版本 (8 个重大更新)

0.9.4 2020 年 7 月 27 日
0.9.0 2020 年 6 月 23 日
0.7.0 2019 年 11 月 8 日
0.6.1 2019 年 6 月 21 日
0.2.0 2018 年 9 月 28 日

#401 in 机器学习

Download history 2/week @ 2024-03-09 11/week @ 2024-03-16 76/week @ 2024-03-30 18/week @ 2024-04-06

每月 63 次下载
用于 finalfrontier-utils

Apache-2.0 OR BlueOak-1.0.0

180KB
4.5K SLoC

Crate Docs Build Status

finalfrontier

简介

finalfrontier 是一个用于训练词嵌入的 Rust 程序。finalfrontier 目前有以下功能

  • 模型
    • skip-gram(Mikolov 等人,2013 年)
    • 结构化 skip-gram(Ling 等人,2015 年)
    • 方向 skip-gram(Song 等人,2018 年)
    • 依赖(Levy 和 Goldberg,2014 年)
  • 输出格式
    • finalfusion
    • fastText
    • word2vec 二进制
    • word2vec 文本
    • GloVe 文本
  • 噪声对比估计(Gutmann 和 Hyvärinen,2012 年)
  • 子词表示(Bojanowski 等人,2016 年)
  • Hogwild SGD(Recht 等人,2011 年)
  • 通过 finalfusion quantize 命令进行量化嵌入。

训练好的嵌入可以存储在通用的 finalfusion 格式中,该格式可以使用 finalfusion 包和 finalfusion Python 模块读取和使用。

当前所需的最小 Rust 版本为 1.40。

下一步该怎么做

依赖关系

~12–24MB
~325K SLoC