3 个不稳定版本

0.3.1 2019 年 5 月 28 日
0.3.0 2019 年 5 月 27 日
0.2.0 2019 年 5 月 17 日

#1803数据结构

Apache-2.0

205KB
4.5K SLoC

Crate Build Status

lumberjack

读取和处理各种格式的选区树。

安装

  • 来自 crates.io
cargo install lumberjack-utils
  • 来自 GitHub
cargo install --git https://github.com/sebpuetz/lumberjack

作为独立使用

  • 将 NEGRA 导出 4 格式的树库转换为括号化的 TueBa V2 格式
lumberjack-conversion --input_file treebank.negra --input_format negra \
    --output_format tueba --output_file treebank.tueba --projectivize
  • 仅保留根节点、NPPP 并打印到简单括号化格式
echo "NP PP" > filter_set.txt
lumberjack-conversion --input_file treebank.simple --input_format simple \
    --output_format tueba --output_file treebank.filtered \
    --filter filter_set.txt
  • 从简单括号化的树库转换为 CONLLX 格式,并标注终端的父标签为特征。
lumberjack-conversion --input_file treebank.simple --input_format  simple\
    --output_format conllx --output_file treebank.conll --parent 
  • 以下顺序进行修改
  1. 将所有以 $ 开头的词性终端重新附加到根节点
  2. 删除除了根节点、SNPPPVP 之外的所有非终端
  3. 根据最近的 S 为终端分配唯一的标识符
  4. 在不受 NPPP 支配的终端上方插入标签为 label 的节点
  5. 标注终端上父节点的标签。
  6. 打印带注释的 CONLLX 格式。
echo "S VP NP PP" > filter_set.txt
echo "NP PP" > insert_set.txt
echo "S" > id_set.txt
lumberjack-conversion --input_file treebank.simple --input_format simple\
    --output_format conllx --insertion_set insert_set.txt \
    --insertion_label label --id_set id_set.txt --reattach $\
    --parent parent --output_file treebank.conllx

作为 rust 库使用

  • 从 NEGRA 格式读取并投影树,并打印到简单括号化格式
use std::io::{BufReader, File};

use lumberjack::io::{NegraReader, PTBFormat};
use lumberjack::Projectivize;

fn print_negra(path: &str) {
    let file = File::open(path).unwrap();
    let reader = NegraReader::new(BufReader::new(file));
    for tree in reader {
        let mut tree = tree.unwrap();
        tree.projectivize();
        println!("{}", PTBFormat::Simple.tree_to_string(&tree).unwrap());
    }
}
  • 从树库中的树中过滤非终端节点,并打印到简单括号化格式
use lumberjack::{io::PTBFormat, Tree, TreeOps, util::LabelSet};

fn filter_nodes(iter: impl Iterator<Item=Tree>, set: LabelSet) {
    for mut tree in iter {
        tree.filter_nonterminals(|tree, nt| set.matches(tree[nt].label())).unwrap();
        println!("{}", PTBFormat::Simple.tree_to_string(&tree).unwrap());
    }
}
  • 将简单括号化格式的树库转换为具有特征字段中编码的选区结构的 CONLLX
use conllx::graph::Sentence;
use lumberjack::io::Encode;
use lumberjack::{Tree, TreeOps, UnaryChains};

fn to_conllx(iter: impl Iterator<Item=Tree>) {
    for mut tree in iter {
        tree.collaps_unary_chains().unwrap();
        tree.annotate_absolute().unwrap();
        println!("{}", Sentence::from(&tree));    
    }
}

依赖关系

~5.5MB
~91K SLoC