#fst #english #head #extract #speech #part #info

bin+lib wiktionary-part-of-speech-extract

解析英语维基词典以获取词性信息并将其放入预编译的FST

3个版本

0.1.2 2021年8月8日
0.1.1 2021年5月18日
0.1.0 2021年4月2日

#799 in 音频


用于 2 个crates(通过 layered-part-of-speech

MIT/Apache

2MB
5.5K SLoC

F* 5K SLoC // 0.2% comments Rust 483 SLoC // 0.0% comments

wiktionary-part-of-speech-extract

./sample.xml 只是整个维基媒体 enwiktionary-20210320-pages-articles.xml 下载的头部 (来源)。

此生成器的目的是解析整个文件。

cargo run ./sample.xml

lib.rs:

cargo run regenerate --release enwiktionary-pages-*.xml # regenerate "words.fst" binary
cargo publish # publish lib including "words.fst" binary

用法

use wiktionary_part_of_speech_extract::{ENGLISH_TAG_LOOKUP, TagSet, Tag};

assert_eq!(Some(TagSet::of(&[Tag::Noun, Tag::Verb])), ENGLISH_TAG_LOOKUP.get("harbor"));

依赖项

~1.6–2.9MB
~33K SLoC