#embedding #word #finalfusion #representation #subword #train #finalfrontier

废弃 bin+lib finalfrontier-utils

使用子词表示训练和使用词嵌入

9个版本 (5个破坏性更新)

0.6.2 2019年11月8日
0.6.1 2019年6月21日
0.5.0 2019年4月25日
0.4.1 2019年4月12日
0.1.0 2018年9月10日

#5 in #finalfusion

每月下载量 32次

Apache-2.0

215KB
5.5K SLoC

Crate Docs Build Status

finalfrontier

简介

finalfrontier 是一个用于训练词嵌入的 Rust 程序。finalfrontier 目前有以下功能

  • 模型
    • skip-gram (Mikolov et al., 2013)
    • 结构化 skip-gram (Ling et al., 2015)
    • 方向性 skip-gram (Song et al., 2018)
    • 依存关系 (Levy and Goldberg, 2014)
  • 输出格式
    • finalfusion
    • fastText
    • word2vec 二进制
    • word2vec 文本
    • GloVe 文本
  • 噪声对比估计 (Gutmann and Hyvärinen, 2012)
  • 子词表示 (Bojanowski et al., 2016)
  • Hogwild SGD (Recht et al., 2011)
  • 通过 finalfusion quantize 命令进行量化嵌入。

训练的嵌入可以存储在通用的 finalfusion 格式中,该格式可以使用 finalfusion crate 和 finalfusion Python 模块进行读取和使用。

目前所需的最低 Rust 版本是 1.70。

下一步去哪里

依赖关系

~9–19MB
~242K SLoC