3 个不稳定版本
0.3.1 | 2019 年 5 月 28 日 |
---|---|
0.3.0 | 2019 年 5 月 27 日 |
0.2.0 | 2019 年 5 月 17 日 |
#1803 在 数据结构
205KB
4.5K SLoC
lumberjack
读取和处理各种格式的选区树。
安装
- 来自 crates.io
cargo install lumberjack-utils
- 来自 GitHub
cargo install --git https://github.com/sebpuetz/lumberjack
作为独立使用
- 将 NEGRA 导出 4 格式的树库转换为括号化的 TueBa V2 格式
lumberjack-conversion --input_file treebank.negra --input_format negra \
--output_format tueba --output_file treebank.tueba --projectivize
- 仅保留根节点、
NP
和PP
并打印到简单括号化格式
echo "NP PP" > filter_set.txt
lumberjack-conversion --input_file treebank.simple --input_format simple \
--output_format tueba --output_file treebank.filtered \
--filter filter_set.txt
- 从简单括号化的树库转换为 CONLLX 格式,并标注终端的父标签为特征。
lumberjack-conversion --input_file treebank.simple --input_format simple\
--output_format conllx --output_file treebank.conll --parent
- 以下顺序进行修改
- 将所有以
$
开头的词性终端重新附加到根节点 - 删除除了根节点、
S
、NP
、PP
和VP
之外的所有非终端 - 根据最近的
S
为终端分配唯一的标识符 - 在不受
NP
或PP
支配的终端上方插入标签为label
的节点 - 标注终端上父节点的标签。
- 打印带注释的 CONLLX 格式。
echo "S VP NP PP" > filter_set.txt
echo "NP PP" > insert_set.txt
echo "S" > id_set.txt
lumberjack-conversion --input_file treebank.simple --input_format simple\
--output_format conllx --insertion_set insert_set.txt \
--insertion_label label --id_set id_set.txt --reattach $\
--parent parent --output_file treebank.conllx
作为 rust 库使用
- 从 NEGRA 格式读取并投影树,并打印到简单括号化格式
use std::io::{BufReader, File};
use lumberjack::io::{NegraReader, PTBFormat};
use lumberjack::Projectivize;
fn print_negra(path: &str) {
let file = File::open(path).unwrap();
let reader = NegraReader::new(BufReader::new(file));
for tree in reader {
let mut tree = tree.unwrap();
tree.projectivize();
println!("{}", PTBFormat::Simple.tree_to_string(&tree).unwrap());
}
}
- 从树库中的树中过滤非终端节点,并打印到简单括号化格式
use lumberjack::{io::PTBFormat, Tree, TreeOps, util::LabelSet};
fn filter_nodes(iter: impl Iterator<Item=Tree>, set: LabelSet) {
for mut tree in iter {
tree.filter_nonterminals(|tree, nt| set.matches(tree[nt].label())).unwrap();
println!("{}", PTBFormat::Simple.tree_to_string(&tree).unwrap());
}
}
- 将简单括号化格式的树库转换为具有特征字段中编码的选区结构的 CONLLX
use conllx::graph::Sentence;
use lumberjack::io::Encode;
use lumberjack::{Tree, TreeOps, UnaryChains};
fn to_conllx(iter: impl Iterator<Item=Tree>) {
for mut tree in iter {
tree.collaps_unary_chains().unwrap();
tree.annotate_absolute().unwrap();
println!("{}", Sentence::from(&tree));
}
}
依赖关系
~5.5MB
~91K SLoC