#corpus #japanese #dictionary

tanaka

田中库是用于访问并行日英句子的 Tanaka 语料库的 Rust 接口。

1 个不稳定版本

0.1.0 2023 年 12 月 6 日

#9#corpus

MIT/Apache

7MB
327 代码行数(不包括注释)

Tanaka

Tanaka 并行日英句子语料库的 Rust 接口。

标准 语料库 已包含 - 直接调用 examples()(或 examples_subset())。这些在库中占用几个兆字节 - 可以通过禁用相应的 功能标志 来排除。

# use tanaka::Corpus;
let corpus = Corpus::examples();
println!("{:?}", corpus.examples[0]);

否则,将所需语料库的版本加载到字符串中,并对其进行解析

# use tanaka::Corpus;
let text = "A: 彼は忙しいですか。	Is he busy?#ID=303692_100005\n\
            B: 彼(かれ)[01] は 忙しい(いそがしい) ですか";

let corpus = Corpus::parse(text).unwrap();
println!("{:?}", corpus.examples[0]);

lib.rs:

功能标志

依赖关系

~3–5MB
~82K SLoC