#memory #word #vector #terms #index #binary #parse

word_vec-rs

内存高效库,用于处理 word2vec 矢量

1 个不稳定版本

0.1.1 2023年5月11日
0.1.0 2023年5月11日

#569 in 机器学习

AGPL-3.0-or-later

28KB
722

word_vec-rs

内存高效库,用于处理 word 矢量

示例


let space = Word2VecParser::new()
    // Parse binary file
    .binary()
    // Index terms to find vectors faster.
    .index_terms(true)
    .parse_file("./GoogleNews-vectors-negative300.bin")
    .unwrap();
   
let hello = space.find_term("hello").unwrap();
let hi = space.find_term("hi").unwrap();
println!("{}", hello.cosine(&hi));

转换文件格式

// Load a space
let space = Word2VecParser::new()
    .binary()
    .index_terms(true)
    .parse_file("./GoogleNews-vectors-negative300.bin")
    .unwrap();

// export space to .vec file
let out = BufWriter::new(File::create("GoogleNews-vectors-negative300.vec").unwrap());
Exporter::new(out).export_space(&space).unwrap();

依赖项

~4.5MB
~91K SLoC