3 个不稳定版本
0.2.0 | 2023年8月26日 |
---|---|
0.1.1 | 2023年8月26日 |
0.1.0 | 2023年8月26日 |
#275 in #nlp
13KB
300 行
conll
conll 是一个用于高效解析 树库 的 Rust 包,格式为 CoNLL(-U)。
用法
您可以使用随包提供的 parse
程序,或者按照以下用法以编程方式使用库
let lines: Vec<String>;
let treebank = conll::conllu::parser::parse(lines).unwrap();
性能
ConLL-U 解析器非常快速。以下是使用 time
执行二进制文件的输出,在一个 14MB 文件上。
$ time ./target/release/parse nl_alpino-ud-dev.conllu -s
real 0m0.074s
user 0m0.054s
sys 0m0.019s
为了比较,这里是在一个 195MB 文件上的结果。
time ./target/release/parse de_hdt-ud-train.conllu -s
real 0m5.006s
user 0m3.866s
sys 0m1.116s
依赖项
~2.7–4.5MB
~80K SLoC