#句子 #英语 #解析器 #课程 #创建 #空白字符 #数字

bin+lib kma-rustlang-vadym-polishchuk-english-parser

为KMA Rust课程创建的简单英语句子解析器

1个不稳定版本

0.2.0 2023年11月11日

#1786 in 文本处理

MIT 许可证

6KB
62

描述

为KMA Rust课程创建的简单英语句子解析器。解析器可以识别单个单词、数字、标点符号、空白字符、句子和整个文本。

用法

make run ARGS="-f test_files/test1.txt"

输出

["Hello", ",", " ", "world", "!"]

或获取帮助信息

make

技术

解析器使用peg库。规则

  • word()规则用于解析仅包含字母符号的单词
  • number()规则用于解析数字
  • end_punctuation()规则用于解析可以结束句子的标点符号:... | . | ! | ?
  • other_punctuation()规则用于解析可以位于句子中的标点符号:, | ; | : | -
  • whitespace()规则用于解析空格或其他缩进符号,如'\t' | '\n' | '\r'
  • sentence()规则用于解析整个句子。它使用前三个规则来解析输入字符串。句子必须以end_punctuation结尾
  • text() 规则可以解析多个句子

依赖关系

~1MB
~18K SLoC