#tokenizer

  1. 标志

    创建超快的词法分析器

    v0.14.1 376K #lexer #tokenizer #lexical #state-machine #parser #no-std
  2. xmlparser

    基于拉取的零分配 XML 解析器

    v0.13.6 1.7M #xml #parser #tokenizer
  3. tokenizers

    当今最常用的分词器,注重性能和多功能性

    v0.20.0 101K #nlp #tokenizer #huggingface #bpe #word-piece #unicode-normalization #tokenize
  4. text-splitter

    将文本分割成语义块,最多到所需块大小。支持按字符和标记计算长度,并可从 Rust 和 Python 调用。

    v0.15.0 11K #split #nlp #tokenizer #ai #language-model #text
  5. svgtypes

    SVG 类型解析器

    v0.15.2 175K #svg-parser #parser #tokenizer #path #types #data #command
  6. charabia

    检测语言,分词文本并规范化标记

    v0.9.0 9.8K #tokenizer #normalize #segmenter #tokenize #language
  7. html5gum

    符合 WHATWG 标准的 HTML5 分词器和标签汤解析器

    v0.5.7 9.5K #html-parser #tokenizer #html5 #html #whatwg #tokenize #parser
  8. sqlite3-parser

    SQL 解析器(如 SQLite 所理解)

    v0.13.0 105K #sql-parser #sql #scanner #tokenizer #parser #tokenize
  9. libsql-sqlite3-parser

    SQL 解析器(如 SQLite 所理解)(libsql 分支)

    v0.13.0 9.0K #sql-parser #parser-generator #parser #sql #scanner #tokenizer #tokenize
  10. rust_tokenizers

    Rust 的高性能分词器

    v8.1.1 4.3K #tokenizer #nlp #tokenize #machine-learning #language-model
  11. tantivy-stemmers

    Tantivy词干标记器集合

    v0.4.0 #tantivy #tokenizer #stemmer
  12. erl_tokenize

    Erlang源代码标记器

    v0.6.1 500 #line-column #erlang #tokenizer #lexer #tokenize #path
  13. tantivy-jieba

    连接tantivy和jieba-rs的桥梁

    v0.11.0 10K #tantivy #jieba #bridge #adapter #tokenizer #jieba-rs
  14. jayce

    标记器 🌌

    v12.1.0 #tokenizer #token #found #name #sync #default #🌌
  15. scnr

    具有正则表达式模式和多种模式的扫描器/词法分析器

    v0.2.0 120 #scanner #lexer #tokenizer #compile-time
  16. momoa

    适用于静态分析的JSON解析库

    v3.1.0 100 #json-parser #ast #static-analysis #syntax-tree #tokenizer #comments #suitable
  17. logos-codegen

    创建超快的词法分析器

    v0.14.1 242K #lexer #tokenizer #parser #lexical #compile-time #lookup-tables #optimization
  18. html5tokenizer

    支持代码span的HTML5标记器

    v0.5.2 #html-parser #tokenizer #html #html5 #whatwg #parser
  19. llm_utils

    LLM瑞士军刀:无链 - 只有工具

    v0.0.7 #llm #nlp #tokenizer #chunking #hugging-face #gguf #prompt-tokens
  20. tantivy-czech-stemmer

    作为Tantivy标记器的捷克语词干标记器

    v0.2.1 #tantivy #stemmer #tokenizer #czech #full-text-search #search-engine
  21. svgrtypes

    SVG 类型解析器

    v0.42.2 #svg-parser #svg #parser #tokenizer
  22. vaporetto

    基于点预测的标记器

    v0.6.3 1.6K #japanese #tokenizer #analyzer #morphological
  23. langbox

    用于构建编译器和解释器的框架

    v0.6.0 #lexer #parser-combinator #tokenizer #tokenize #parser
  24. lindera-tokenizer

    形态分析库

    v0.32.2 9.7K #tokenizer #analysis #morphological #library
  25. lindera-tantivy

    Lindera 适用于 Tantivy 的分词器

    v0.27.1 #tantivy #tokenizer #lindera
  26. rwkv-tokenizer

    快速 RWKV 分词器

    v0.9.0 #tokenizer #rwkv #world-tokenizer #models #v6 #v5
  27. lexers

    用于分词和扫描的工具

    v0.1.4 500 #lexer #tokenizer #ebnf #scanner #tokenize
  28. logos-cli

    创建超快的词法分析器

    v0.14.1 100 #lexer #tokenizer #lexical #compile-time #parser #read #optimization
  29. sentencepiece

    对 sentencepiece 分词器的绑定

    v0.11.2 1.6K #binding #tokenizer #sentence #unsupervised #text #sentence-piece-processor
  30. text-tokenizer

    自定义文本分词器

    v0.5.3 490 #tokenizer #tokenize #text-tokenizer
  31. punkt

    句子分词器

    v1.0.5 #sentence #tokenizer #token #tokenize
  32. simple-tokenizer

    一个具有行和列跟踪功能的小型无_std 分词器

    v0.4.2 #tokenizer #line-column #parser #tracking #backtracking #tiny #no-alloc
  33. bnf_rules

    LR(1) 解析器生成器

    v0.1.4 #parser-generator #bnf #rules #lr #tokenizer #grammar #literals
  34. nnsplit

    使用神经网络分割文本。用于句子边界检测、复合分割等。

    v0.5.9 #neural-network #machine-learning #deep-learning #tokenizer #pytorch #sentencizer
  35. vibrato

    基于 Viterbi 的加速分词器

    v0.5.1 550 #japanese #tokenizer #morphological #analyzer
  36. tantivy-tokenizer-api

    tantivy 的分词器 API

    v0.3.0 473K #search-engine #tantivy #tokenizer #full-text-search #indexing #api #token
  37. fuzzy-pickles

    Rust 源代码的低级解析器,具有高级访问器实现

    v0.1.1 #tokenizer #parser #rust
  38. sentencepiece-model

    从 SentencePiece protobuf 定义生成的 SentencePiece 模型解析器

    v0.1.3 110 #nlp #sentence-piece #machine-learning #tokenizer #sentencepiece
  39. token-counter

    wc for tokens: 使用 HF Tokenizers 统计文件中的标记

    v0.1.0 #nlp #tokenizer #command-line-tool #cli
  40. izihawa-tantivy-tokenizer-api

    tantivy 的分词器 API

    v0.3.0 #search-engine #tokenizer #tantivy #api #indexing #token #stable
  41. libsimple

    Rust 对 simple 的绑定,simple 是一个支持中文和拼音的 SQLite3 fts5 分词器

    v0.3.1 110 #sqlite-extension #tokenizer #sqlite #extension #fts5
  42. tiniestsegmenter

    紧凑的日语分词器

    v0.2.0 #nlp #japanese #tokenizer #ngrams #ngram
  43. nlpo3

    泰语自然语言处理库,支持 Python 和 Node 绑定

    v1.3.2 #nlp #thai #tokenizer #python-bindings #word-segmentation #nodejs
  44. lang_pt

    用于生成递归下降自顶向下解析器的解析工具

    v0.1.2 #tokenizer #recursive-descent #parser #tokenize #top-down #regex
  45. indent_tokenizer

    基于缩进来生成标记

    v0.4.0 #indentation #token #tokenizer #tokenize
  46. alpino-tokenize

    Alpino 分词器的包装器,用于荷兰语

    v0.4.0 #tokenizer #finite-state #dutch #transducer #shell #alpino #language
  47. lexical_scanner

    根据 Rust 编程语言创建超过 115+ 个不同标记的词法分析器。此完整的 Lexer/Lexical Scanner 可用于字符串或文件路径条目生成标记。

    v0.1.18 #lexer #file-path #tokenizer #lexical #scanlex
  48. ellie_tokenizer

    ellie 语言的分词器

    v0.7.3 #ellie #language #tokenizer #position #file #items #list
  49. vaporetto_tantivy

    Tantivy 的 Vaporetto 分词器

    v0.22.0 240 #tantivy #japanese #tokenizer #tokenize
  50. cang-jie

    tantivy 的中文分词器

    v0.18.0 110 #chinese #tantivy #tokenizer #search
  51. tokengeex

    基于 UnigramLM 和 TokenMonster 的高效代码分词器

    v1.1.0 130 #nlp #tokenizer #llm #codegeex #python-packages
  52. giron

    输出 ESTree JSON 的 ECMAScript 解析器

    v0.1.2 #javascript-parser #parser #javascript #tokenizer #js #ecmascript #wasm-binary
  53. retoken

    使用正则表达式构建 &str 分词器

    v0.1.5 #regex #token-stream #str #tokenizer #proc-macro #syn
  54. sql-script-parser

    遍历 SQL 脚本中的 SQL 语句

    v0.1.2 #sql #sql-parser #mysql #parser #tokenizer
  55. htmlparser

    基于拉取,无分配的 HTML 解析器

    v0.1.1 200 #html #parser #tokenizer #html-parsing
  56. rtf-grimoire

    富文本文件 (RTF) 文档分词器。适用于编写 RTF 解析器。

    v0.2.1 #rtf #tokenizer #rich #document #text-format #editor #text-file
  57. absolution

    ‘从 syn 中解脱出来’。为使用在 bang-style proc macros 中设计的轻量级 Rust 词法分析器。

    v0.1.1 #lexer #syn #macro #parser #tokenizer
  58. skimmer

    流式读取器

    v0.0.3 #stream #byte #tokenizer #reader
  59. bnf_rules_parser

    LR(1) 解析器生成器

    v0.1.4 #parser-generator #bnf #rules #lr #grammar #tokenizer #token
  60. blex

    轻量级词法分析框架

    v0.2.2 #token #tokenizer #tokenization #lexer #lex
  61. char-lex

    创建简单的枚举词法分析器

    v1.0.5 #lexer #lexing #tokenizer #parser #char
  62. alpino-tokenizer

    Alpino 分词器的包装器,用于荷兰语

    v0.4.0 #tokenizer #finite-state #language #shell #transducer #dutch #alpino
  63. bytepiece_rs

    用 Rust 实现的 Bytepiece 分词器

    v0.2.2 #nlp #tokenizer #bytepiece #deeplearning
  64. tokenizer

    泰语文本分词器

    v0.1.2 #thai #word #tokenize #localization #tokeniser #text
  65. bleuscore

    快速的 BLEU 分数计算器

    v0.1.3 240 #nlp #deep-learning #tokenizer #bleu #tokenize
  66. instant-clip-tokenizer

    适用于CLIP神经网络的快速文本标记器

    v0.1.0 220 #neural-network #clip #tokenizer #openai #instant #model #networking
  67. rs_html_parser_tokenizer

    Rs Html 解析器标记器

    v0.0.10 #html-parser #html #parser #tokenizer
  68. javascript_lexer

    JavaScript 标记解析器

    v0.1.8 #lexer #tokenizer #javascript-parser #javscript #parser #ecma
  69. vaporetto_rules

    适用于Vaporetto的基于规则的过滤器

    v0.6.3 650 #japanese #tokenizer #morphological #analyzer
  70. azul-simplecss

    一个非常简单的CSS 2.1标记器

    v0.1.1 140 #css-parser #css #tokenizer #parser
  71. mako

    主Sidekick AI数据处理库

    v0.3.0 #data-processing #directed-acyclic-graph #machine-learning #data-loader #pipeline #tokenizer #node
  72. sixel-tokenizer

    序列化Sixel字节标记器

    v0.1.0 3.1K #byte #sixel #tokenizer #serialization #image #parser #sixel-event
  73. 尝试使用DuckDuckGo进行搜索。搜索.

  74. uscan

    通用源代码扫描器

    v0.1.3 #scanner #tokenizer #compiler #handle
  75. infisearch_lang_ascii

    InfiSearch的基本ASCII标记器

    v0.10.1 #infisearch #ascii #tokenizer #cli-tool #language #basic #package
  76. earl-lang-syntax

    Earl语言的标记器和解析器

    v1.0.0 #language #syntax #s-expr #tokenizer #earl #expression-language #comments
  77. sentencepiece-sys

    对 sentencepiece 分词器的绑定

    v0.11.2 1.6K #sentence-piece #bindings #tokenizer
  78. regex-lexer

    基于正则表达式的标记解析器(标记器)

    v0.2.0 #lexer #regex #tokenizer #regex-parser #parser
  79. bareun_rs

    Bareun是Rust的韩语形态分析器

    v0.1.0 #korean #nlp #analyzer #tokenizer
  80. castle_tokenizer

    Castle Tokenizer:分词器

    v0.20.2 #tokenizer #castle #tokenize
  81. infisearch_lang_chinese

    InfiSearch 的中文分词器

    v0.10.1 100 #chinese #infisearch #language #tokenizer #tool #cli-tool #package
  82. blingfire

    BlingFire 分词库的包装器

    v1.0.0 3.4K #tokenizer #nlp #machine-learning
  83. tinysegmenter

    紧凑的日语分词器

    v0.1.1 1.6K #japanese #tokenizer #compact
  84. regex-lexer-lalrpop

    基于正则表达式的标记解析器(标记器)

    v0.3.0 #lexer #tokenizer #regex #regex-parser #parser
  85. brack-tokenizer

    Brack 编程语言的分词器

    v0.1.0 #programming-language #tokenizer #brack
  86. sana

    轻松创建词法分析器

    v0.1.1 #lexer #generator #tokenizer #scanner
  87. aleph-alpha-tokenizer

    基于词元灵感的分词器的快速实现

    v0.3.1 #tokenizer #nlp #huggingface #alpha #aleph #rustic
  88. plex

    用于编写词法分析器和解析器的语法扩展

    v0.3.1 460 #lexer #parser-generator #parser #generator #scanner #tokenizer
  89. indentation_flattener

    从缩进输入生成具有缩进推送和弹出代码的纯输出

    v0.1.0 #indentation #tokenizer #parser #text-input
  90. xxcalc

    可嵌入或独立使用的强大浮点多项式计算器

    v0.2.1 #calculator #tokenizer #evaluator #math #lexer #arithmetic-operations
  91. pretok

    适用于类似 C 语法的字符串预分词器

    v0.1.0 #tokenizer #lexer #byte-offset #text #fuzz-testing
  92. simple-cursor

    面向词法分析器和分词器的超级简单的字符光标实现

    v0.1.1 #cursor #string #iterator #tokenizer #lexer #no-alloc
  93. tusk_lexer

    Tusk 的词法分析组件

    v0.4.7 #lexer #lexical #tokenizer #lexical-analysis
  94. json-parser

    JSON 解析器

    v1.0.2 #json #tokenizer #token #parser
  95. pgn-lexer

    用于棋类游戏的 PGN 文件的词法分析器。提供从字节流中迭代标记的迭代器。

    v0.2.0-alpha #pgn #lexer #chess #tokenizer
  96. morsels_lang_ascii

    morsels的ASCII标记器

    v0.7.3 #ascii #tokenizer #morsels #basic #language #morsels-indexer #search
  97. tele_tokenizer

    CSS标记器

    v0.2.0 #tokenizer #css #telecss
  98. rust-forth-tokenizer

    用Rust编写的Forth标记器

    v0.2.0 #tokenizer #forth #forth-token #iterator #numbers #command #regular
  99. basic_lexer

    用于解析和编译的基本词法分析器

    v0.2.1 #tokenizer #scanner #token #lexical-analysis #basic #compiling #analyzer
  100. nipah_tokenizer

    满足日常需求的有力且简单的文本标记器!

    v0.1.0 #tokenizer #token #words #nlp #tokenize #text
  101. xtoken

    基于迭代器的no_std XML标记器,使用memchr

    v0.1.1 #tokenizer #xml #iterator #no-std #memchr #token
  102. sylt-tokenizer

    Sylt编程语言的标记器

    v0.1.0 #sylt #tokenizer #programming-language #reference #reference-counting
  103. morsels_lang_chinese

    morsels的中文标记器

    v0.7.3 #chinese #tokenizer #language #morsels-indexer #tool #cli-tool
  104. rust-lexer

    使用DFAs生成标记器的编译器(受flex启发)

    v0.2.0 #compiler #lexer #dfa #tokenizer #flex #generate
  105. gpt_tokenizer

    为GPT-2 / GPT-3提供Rust BPE编码器解码器(标记器)

    v0.1.0 #tokenizer #openai #ChatGPT #gpt-3 #bpe #codec
  106. regex-tokenizer

    正则表达式标记器

    v0.1.1 #tokenizer #regex #tokenize
  107. bytepiece

    bytepiece标记器的Rust版本

    v0.2.0 #tokenizer #version #python
  108. token_trekker_rs

    一个有趣且高效的Rust库,用于使用不同的标记器统计文本文件中的标记数

    v0.1.3 #tokenizer #token #counting #fun #different #count #text
  109. c-lexer-stable

    C词法分析器

    v0.1.4 1.2K #lexer #tokenizer #parser #c #state-machine
  110. condex

    通过简单的条件表达式提取标记

    v1.0.0 #splitter #tokenizer #parallel #lexer #sentence
  111. tantivy-pinyin

    正如其名,这是一个 tantivy 的拼音分词器

    v0.1.3 #tantivy #pinyin #tokenizer #的拼音分析器 #token #stop-words
  112. saku

    高效的基于规则的日语句子分词器

    v0.1.6 #japanese #sentence #tokenizer #nlp #text
  113. hemtt-tokens

    hemtt 的标记库

    v1.0.0 #token #hemtt #tokenizer
  114. polyglot_tokenizer

    一种通用编程语言分词器

    v0.2.1 120 #programming-language #tokenizer #generics #polyglot #token #numbers #identifier
  115. token

    字符串分词器(和句子分割器)注意:如果您觉得这个名字更适合其他用途,请直接给我发邮件到 [email protected]

    v1.0.0-rc1 #sentence #tokenizer #splitter #string
  116. blingfire-sys

    绑定到 BlingFire C++ 库

    v1.0.1 2.9K #tokenizer #nlp #machine-learning #blingfire
  117. summavy-tokenizer-api

    summavy 的分词器 API

    v0.1.0 #tokenizer #tantivy #api #token #stream #tokenizer-api #charge