1 个不稳定版本
0.1.0 | 2023 年 12 月 6 日 |
---|
#9 在 #corpus
7MB
327 代码行数(不包括注释)
Tanaka
Tanaka 并行日英句子语料库的 Rust 接口。
标准 语料库 已包含 - 直接调用 examples()(或 examples_subset())。这些在库中占用几个兆字节 - 可以通过禁用相应的 功能标志 来排除。
# use tanaka::Corpus;
let corpus = Corpus::examples();
println!("{:?}", corpus.examples[0]);
否则,将所需语料库的版本加载到字符串中,并对其进行解析
# use tanaka::Corpus;
let text = "A: 彼は忙しいですか。 Is he busy?#ID=303692_100005\n\
B: 彼(かれ)[01] は 忙しい(いそがしい) ですか";
let corpus = Corpus::parse(text).unwrap();
println!("{:?}", corpus.examples[0]);
lib.rs
:
功能标志
依赖关系
~3–5MB
~82K SLoC