-
tokenizers
今日最常用的分词器,重点在于性能和多功能性
-
sqlite3-parser
SQL 解析器(如 SQLite 所理解的那样)
-
charabia
检测语言,分词并规范化文本
-
html5gum
A WHATWG-compliant HTML5 tokenizer and tag soup parser
-
libsql-sqlite3-parser
SQL 解析器(如 SQLite 所理解的那样)(libsql fork)
-
classi-cine
A filename based interactive video tagging tool
-
rust_tokenizers
High performance tokenizers for Rust
-
erl_tokenize
Erlang source code tokenizer
-
langbox
一个用于构建编译器和解释器的框架
-
tokenize
用于分词和扫描的工具
-
scanlex
文本解析成标记的词法分析器
-
text-tokenizer
自定义文本标记器
-
punkt
句子标记器
-
irg-kvariants
hfhchan/irg中的kvariant的包装器
-
titokens
TI-Toolkit标记表解析
-
lang_pt
生成递归下降自顶向下解析器的解析工具
-
indent_tokenizer
基于缩进来生成标记
-
specmc-base
解析Minecraft规范的共同代码
-
vaporetto_tantivy
Tantivy的Vaporetto标记器
-
erl_pp
Erlang源代码预处理器
-
chinese_segmenter
使用字典驱动的大词优先匹配方法标记中文句子
-
wordpieces
将标记分割成词块
-
vtext
Rust的NLP
-
tokenizer
泰语文本标记器
-
bleuscore
快速计算 BLEU 分数的计算器
-
unstringify
stringify!
的反向操作的进程宏实现 -
castle_tokenizer
Castle Tokenizer: 分词器
-
reflex
一个最小的类似于 flex 的词法分析器
-
nipah_tokenizer
一个功能强大且简单的日常文本分词器!
-
regex-tokenizer
正则表达式分词器
-
tokenate
做一些编写分词器的幕后工作
-
khmercut
用 Rust 编写的闪电般的 Khmer 单词切分工具
-
name-tokenizer
Solana 程序,允许将 Solana 名称服务分词成 NFT
-
serde_token
将 Serde 反序列化器转换为令牌的接收器
-
pyawabi
awabi 的 Python 封装
-
tokenize
Rust 中的规范
-
sqlite3_tokenizer
按照 SQLite 的方式分词 SQL 字符串
-
pop-os/token-expander
使用类似shell的表达式对字符串进行标记和扩展
尝试使用 DuckDuckGo 进行搜索。