#conllu #nlp #treebank

bin+lib conll

CoNLL(-U) 树库解析器

3 个不稳定版本

0.2.0 2023年8月26日
0.1.1 2023年8月26日
0.1.0 2023年8月26日

#275 in #nlp

MIT 许可证

13KB
300

conll

conll 是一个用于高效解析 树库 的 Rust 包,格式为 CoNLL(-U)

用法

您可以使用随包提供的 parse 程序,或者按照以下用法以编程方式使用库

let lines: Vec<String>;

let treebank = conll::conllu::parser::parse(lines).unwrap();

性能

ConLL-U 解析器非常快速。以下是使用 time 执行二进制文件的输出,在一个 14MB 文件上。

$ time ./target/release/parse nl_alpino-ud-dev.conllu -s

real    0m0.074s
user    0m0.054s
sys     0m0.019s

为了比较,这里是在一个 195MB 文件上的结果。

time ./target/release/parse de_hdt-ud-train.conllu -s

real    0m5.006s
user    0m3.866s
sys     0m1.116s

依赖项

~2.7–4.5MB
~80K SLoC