#parser #incremental #api-bindings

tree-sitter-unofficial

Rust 对 Tree-sitter 解析库的绑定(从 tree-sitter/tree-sitter 克隆而来)

1 个不稳定版本

0.0.1 2023年4月14日

#279#incremental

24 每月下载量
用于 tree-sitter-solidity-unof…

MIT 许可协议

490KB
12K SLoC

C 9K SLoC // 0.1% comments • Rust 包仓库 Rust 2.5K SLoC // 0.0% comments • Rust 包仓库

Rust Tree-sitter

Crates.io

Rust 对 Tree-sitter 解析库的绑定。

基本用法

首先创建一个解析器

use tree_sitter::{Parser, Language};

let mut parser = Parser::new();

Tree-sitter 语言由生成的 C 代码组成。为确保它们正确编译和链接,您可以创建一个如下所示的 构建脚本(假设 tree-sitter-javascript 在您的根目录中)

use std::path::PathBuf;

fn main() {
    let dir: PathBuf = ["tree-sitter-javascript", "src"].iter().collect();

    cc::Build::new()
        .include(&dir)
        .file(dir.join("parser.c"))
        .file(dir.join("scanner.c"))
        .compile("tree-sitter-javascript");
}

cc 包添加到您的 Cargo.toml 中的 [build-dependencies]

[build-dependencies]
cc="*"

然后,您必须将它们声明为 extern "C" 函数,并使用 unsafe 调用它们。然后您可以将它们分配给解析器。

extern "C" { fn tree_sitter_c() -> Language; }
extern "C" { fn tree_sitter_rust() -> Language; }
extern "C" { fn tree_sitter_javascript() -> Language; }

let language = unsafe { tree_sitter_rust() };
parser.set_language(language).unwrap();

现在您可以解析源代码

let source_code = "fn test() {}";
let tree = parser.parse(source_code, None).unwrap();
let root_node = tree.root_node();

assert_eq!(root_node.kind(), "source_file");
assert_eq!(root_node.start_position().column, 0);
assert_eq!(root_node.end_position().column, 12);

编辑

一旦您有了语法树,您可以在源代码更改时更新它。传递先前的编辑树可以使 parse 运行得更快

let new_source_code = "fn test(a: u32) {}"

tree.edit(InputEdit {
  start_byte: 8,
  old_end_byte: 8,
  new_end_byte: 14,
  start_position: Point::new(0, 8),
  old_end_position: Point::new(0, 8),
  new_end_position: Point::new(0, 14),
});

let new_tree = parser.parse(new_source_code, Some(&tree));

文本输入

要解析的源代码可以是字符串、切片、向量,或者是一个返回切片的函数。文本可以是 UTF8 或 UTF16 编码

// Store some source code in an array of lines.
let lines = &[
    "pub fn foo() {",
    "  1",
    "}",
];

// Parse the source code using a custom callback. The callback is called
// with both a byte offset and a row/column offset.
let tree = parser.parse_with(&mut |_byte: u32, position: Point| -> &[u8] {
    let row = position.row as usize;
    let column = position.column as usize;
    if row < lines.len() {
        if column < lines[row].as_bytes().len() {
            &lines[row].as_bytes()[column..]
        } else {
            "\n".as_bytes()
        }
    } else {
        &[]
    }
}, None).unwrap();

assert_eq!(
  tree.root_node().to_sexp(),
  "(source_file (function_item (visibility_modifier) (identifier) (parameters) (block (number_literal))))"
);

依赖项

~2.1–3.5MB
~57K SLoC