-
标志
创建超快的词法分析器
-
xmlparser
基于拉取的零分配 XML 解析器
-
tokenizers
当今最常用的分词器,注重性能和多功能性
-
text-splitter
将文本分割成语义块,最多到所需块大小。支持按字符和标记计算长度,并可从 Rust 和 Python 调用。
-
svgtypes
SVG 类型解析器
-
charabia
检测语言,分词文本并规范化标记
-
html5gum
符合 WHATWG 标准的 HTML5 分词器和标签汤解析器
-
sqlite3-parser
SQL 解析器(如 SQLite 所理解)
-
libsql-sqlite3-parser
SQL 解析器(如 SQLite 所理解)(libsql 分支)
-
rust_tokenizers
Rust 的高性能分词器
-
tantivy-stemmers
Tantivy词干标记器集合
-
erl_tokenize
Erlang源代码标记器
-
tantivy-jieba
连接tantivy和jieba-rs的桥梁
-
jayce
标记器 🌌
-
scnr
具有正则表达式模式和多种模式的扫描器/词法分析器
-
momoa
适用于静态分析的JSON解析库
-
logos-codegen
创建超快的词法分析器
-
html5tokenizer
支持代码span的HTML5标记器
-
llm_utils
LLM瑞士军刀:无链 - 只有工具
-
tantivy-czech-stemmer
作为Tantivy标记器的捷克语词干标记器
-
svgrtypes
SVG 类型解析器
-
vaporetto
基于点预测的标记器
-
langbox
用于构建编译器和解释器的框架
-
lindera-tokenizer
形态分析库
-
lindera-tantivy
Lindera 适用于 Tantivy 的分词器
-
rwkv-tokenizer
快速 RWKV 分词器
-
lexers
用于分词和扫描的工具
-
logos-cli
创建超快的词法分析器
-
sentencepiece
对 sentencepiece 分词器的绑定
-
text-tokenizer
自定义文本分词器
-
punkt
句子分词器
-
simple-tokenizer
一个具有行和列跟踪功能的小型无_std 分词器
-
bnf_rules
LR(1) 解析器生成器
-
nnsplit
使用神经网络分割文本。用于句子边界检测、复合分割等。
-
vibrato
基于 Viterbi 的加速分词器
-
tantivy-tokenizer-api
tantivy 的分词器 API
-
fuzzy-pickles
Rust 源代码的低级解析器,具有高级访问器实现
-
sentencepiece-model
从 SentencePiece protobuf 定义生成的 SentencePiece 模型解析器
-
token-counter
wc
for tokens: 使用 HF Tokenizers 统计文件中的标记 -
izihawa-tantivy-tokenizer-api
tantivy 的分词器 API
-
libsimple
Rust 对 simple 的绑定,simple 是一个支持中文和拼音的 SQLite3 fts5 分词器
-
tiniestsegmenter
紧凑的日语分词器
-
nlpo3
泰语自然语言处理库,支持 Python 和 Node 绑定
-
lang_pt
用于生成递归下降自顶向下解析器的解析工具
-
indent_tokenizer
基于缩进来生成标记
-
alpino-tokenize
Alpino 分词器的包装器,用于荷兰语
-
lexical_scanner
根据 Rust 编程语言创建超过 115+ 个不同标记的词法分析器。此完整的 Lexer/Lexical Scanner 可用于字符串或文件路径条目生成标记。
-
ellie_tokenizer
ellie 语言的分词器
-
vaporetto_tantivy
Tantivy 的 Vaporetto 分词器
-
cang-jie
tantivy 的中文分词器
-
tokengeex
基于 UnigramLM 和 TokenMonster 的高效代码分词器
-
giron
输出 ESTree JSON 的 ECMAScript 解析器
-
retoken
使用正则表达式构建 &str 分词器
-
sql-script-parser
遍历 SQL 脚本中的 SQL 语句
-
htmlparser
基于拉取,无分配的 HTML 解析器
-
rtf-grimoire
富文本文件 (RTF) 文档分词器。适用于编写 RTF 解析器。
-
absolution
‘从
syn
中解脱出来’。为使用在 bang-style proc macros 中设计的轻量级 Rust 词法分析器。 -
skimmer
流式读取器
-
bnf_rules_parser
LR(1) 解析器生成器
-
blex
轻量级词法分析框架
-
char-lex
创建简单的枚举词法分析器
-
alpino-tokenizer
Alpino 分词器的包装器,用于荷兰语
-
bytepiece_rs
用 Rust 实现的 Bytepiece 分词器
-
tokenizer
泰语文本分词器
-
bleuscore
快速的 BLEU 分数计算器
-
instant-clip-tokenizer
适用于CLIP神经网络的快速文本标记器
-
rs_html_parser_tokenizer
Rs Html 解析器标记器
-
javascript_lexer
JavaScript 标记解析器
-
vaporetto_rules
适用于Vaporetto的基于规则的过滤器
-
azul-simplecss
一个非常简单的CSS 2.1标记器
-
mako
主Sidekick AI数据处理库
-
sixel-tokenizer
序列化Sixel字节标记器
-
uscan
通用源代码扫描器
-
infisearch_lang_ascii
InfiSearch的基本ASCII标记器
-
earl-lang-syntax
Earl语言的标记器和解析器
-
sentencepiece-sys
对 sentencepiece 分词器的绑定
-
regex-lexer
基于正则表达式的标记解析器(标记器)
-
bareun_rs
Bareun是Rust的韩语形态分析器
-
castle_tokenizer
Castle Tokenizer:分词器
-
infisearch_lang_chinese
InfiSearch 的中文分词器
-
blingfire
BlingFire 分词库的包装器
-
tinysegmenter
紧凑的日语分词器
-
regex-lexer-lalrpop
基于正则表达式的标记解析器(标记器)
-
brack-tokenizer
Brack 编程语言的分词器
-
sana
轻松创建词法分析器
-
aleph-alpha-tokenizer
基于词元灵感的分词器的快速实现
-
plex
用于编写词法分析器和解析器的语法扩展
-
indentation_flattener
从缩进输入生成具有缩进推送和弹出代码的纯输出
-
xxcalc
可嵌入或独立使用的强大浮点多项式计算器
-
pretok
适用于类似 C 语法的字符串预分词器
-
simple-cursor
面向词法分析器和分词器的超级简单的字符光标实现
-
tusk_lexer
Tusk 的词法分析组件
-
json-parser
JSON 解析器
-
pgn-lexer
用于棋类游戏的 PGN 文件的词法分析器。提供从字节流中迭代标记的迭代器。
-
morsels_lang_ascii
morsels的ASCII标记器
-
tele_tokenizer
CSS标记器
-
rust-forth-tokenizer
用Rust编写的Forth标记器
-
basic_lexer
用于解析和编译的基本词法分析器
-
nipah_tokenizer
满足日常需求的有力且简单的文本标记器!
-
xtoken
基于迭代器的no_std XML标记器,使用memchr
-
sylt-tokenizer
Sylt编程语言的标记器
-
morsels_lang_chinese
morsels的中文标记器
-
rust-lexer
使用DFAs生成标记器的编译器(受flex启发)
-
gpt_tokenizer
为GPT-2 / GPT-3提供Rust BPE编码器解码器(标记器)
-
regex-tokenizer
正则表达式标记器
-
bytepiece
bytepiece标记器的Rust版本
-
token_trekker_rs
一个有趣且高效的Rust库,用于使用不同的标记器统计文本文件中的标记数
-
c-lexer-stable
C词法分析器
-
condex
通过简单的条件表达式提取标记
-
tantivy-pinyin
正如其名,这是一个 tantivy 的拼音分词器
-
saku
高效的基于规则的日语句子分词器
-
hemtt-tokens
hemtt 的标记库
-
polyglot_tokenizer
一种通用编程语言分词器
-
token
字符串分词器(和句子分割器)注意:如果您觉得这个名字更适合其他用途,请直接给我发邮件到 [email protected]
-
blingfire-sys
绑定到 BlingFire C++ 库
-
summavy-tokenizer-api
summavy 的分词器 API
尝试使用DuckDuckGo进行搜索。搜索.