1 个不稳定版本

0.1.0 2024年7月1日

#788 in 文本处理

MIT/Apache

17KB
386

摘要

提取最能总结文档的句子。

License: MIT License: Apache 2.0 crates.io docs.rs

示例

let summarizer = Summarizer::new(Language::English);
let text = "See Spot. See Spot run. Run Spot, run!";
let n = 2.try_into().unwrap();
for sentence in summarizer.summarize_sentences(text, n) {
    println!("{sentence}");
}

lib.rs:

提取最能总结文档的句子。

该算法使用一种启发式方法,根据文档的整体 tf-idf 余弦距离确定一个“核心”句子,然后收集所有与“核心”句子具有较小余弦距离的句子。

示例

let summarizer = Summarizer::new(Language::English);
let text = "See Spot. See Spot run. Run Spot, run!";
let n = 2.try_into().unwrap();
for sentence in summarizer.summarize_sentences(text, n) {
    println!("{sentence}");
}

依赖项

~4.5MB
~62K SLoC