## tokenize

  1. tokenizers

    今日最常用的分词器,重点在于性能和多功能性

    v0.20.0 101K #nlp #tokenizer #huggingface #bpe #word-piece #unicode-normalization #tokenize
  2. sqlite3-parser

    SQL 解析器(如 SQLite 所理解的那样)

    v0.13.0 105K #sql-parser #sql #scanner #tokenizer #parser #tokenize
  3. charabia

    检测语言,分词并规范化文本

    v0.9.0 9.8K #tokenizer #normalize #segmenter #tokenizer #language
  4. html5gum

    A WHATWG-compliant HTML5 tokenizer and tag soup parser

    v0.5.7 9.5K #html-parser #tokenizer #html5 #parser #tokenize
  5. libsql-sqlite3-parser

    SQL 解析器(如 SQLite 所理解的那样)(libsql fork)

    v0.13.0 9.0K #sql-parser #sql #scanner #tokenizer #parser #tokenize
  6. classi-cine

    A filename based interactive video tagging tool

    v0.1.4 547K #classification #interactive #video #tagging #tool
  7. rust_tokenizers

    High performance tokenizers for Rust

    v0.8.1.1 4.3K #tokenizers #rust #performance
  8. erl_tokenize

    Erlang source code tokenizer

    v0.6.1 547K #source-code #tokenizer
  9. langbox

    一个用于构建编译器和解释器的框架

    v0.6.0 534K #language #build #compilers #interpreters
  10. tokenize

    用于分词和扫描的工具

    v0.1.4 534K #tokenizer #scanner
  11. scanlex

    文本解析成标记的词法分析器

    v0.1.4 10K #input #tokenize #scan #text #text-parser
  12. text-tokenizer

    自定义文本标记器

    v0.5.3 490 #tokenizer #tokenize #text-tokenizer
  13. punkt

    句子标记器

    v1.0.5 #sentence #tokenizer #token #tokenize
  14. irg-kvariants

    hfhchan/irg中的kvariant的包装器

    v0.1.1 9.0K #kvariants #irg #kvariant #hfhchan-irg #tokenize #dictionary
  15. titokens

    TI-Toolkit标记表解析

    v0.2.1 #token-parser #sheet #ti-toolkit #tokenize #version #projects
  16. lang_pt

    生成递归下降自顶向下解析器的解析工具

    v0.1.2 #tokenizer #recursive-descent #parser #tokenize #top-down #regex
  17. indent_tokenizer

    基于缩进来生成标记

    v0.4.0 #indentation #token #tokenizer #tokenize
  18. specmc-base

    解析Minecraft规范的共同代码

    v0.1.11 #minecraft #specification #parser #literals #base #identifier #tokenize
  19. vaporetto_tantivy

    Tantivy的Vaporetto标记器

    v0.22.0 240 #tantivy #japanese #tokenizer #tokenize
  20. erl_pp

    Erlang源代码预处理器

    v0.2.0 #erlang #preprocessor #source #snippets #lexer #reference #tokenize
  21. chinese_segmenter

    使用字典驱动的大词优先匹配方法标记中文句子

    v1.0.1 #chinese #tokenize #hanzi #segment #localization
  22. wordpieces

    将标记分割成词块

    v0.6.1 #piece #word #tokenization #wordpiece #nlp #tokenize
  23. vtext

    Rust的NLP

    v0.2.0 #nlp #tokenization #python-bindings #levenshtein #machine-learning #tf-idf #tokenize
  24. tokenizer

    泰语文本标记器

    v0.1.2 #thai #word #tokenize #localization #tokeniser #text
  25. bleuscore

    快速计算 BLEU 分数的计算器

    v0.1.3 240 #nlp #deep-learning #tokenizer #bleu #tokenize
  26. unstringify

    stringify! 的反向操作的进程宏实现

    v0.1.4 340 #stringify #tokenize #preprocessor #proc-macro
  27. 尝试使用 DuckDuckGo 进行搜索。

  28. castle_tokenizer

    Castle Tokenizer: 分词器

    v0.20.2 #tokenizer #castle #tokenize
  29. reflex

    一个最小的类似于 flex 的词法分析器

    v0.1.2 #lexer #token #flex #define #tokenize #flex-like #lexing-tokenizing
  30. nipah_tokenizer

    一个功能强大且简单的日常文本分词器!

    v0.1.0 #tokenizer #token #words #nlp #tokenize #text
  31. regex-tokenizer

    正则表达式分词器

    v0.1.1 #tokenizer #regex #tokenize
  32. tokenate

    做一些编写分词器的幕后工作

    v0.1.0 #token #tokenize #inner #parse
  33. khmercut

    用 Rust 编写的闪电般的 Khmer 单词切分工具

    v0.1.5 #word #khmer #segmentation #tool #blazingly #tokenize
  34. name-tokenizer

    Solana 程序,允许将 Solana 名称服务分词成 NFT

    v2.0.0 1.3K #domain-name #nft #tokenize #name-service #solana #mint #metaplex
  35. serde_token

    将 Serde 反序列化器转换为令牌的接收器

    v0.0.2 #token #serde #deserializer #transcoding #sink #future #tokenize
  36. pyawabi

    awabi 的 Python 封装

    v0.2.2 #awabi #python #mecab #wrapper #github #com-nakagami-awabi #tokenize
  37. tokenize

    Rust 中的规范

    v0.3.0 210 #tokenize #specification
  38. sqlite3_tokenizer

    按照 SQLite 的方式分词 SQL 字符串

    v0.1.0 #sqlite #tokenizer #sqlite3 #tokenize
  39. pop-os/token-expander

    使用类似shell的表达式对字符串进行标记和扩展

    GitHub 0.1.0 #tokenize #expand #token #expander #string #shell-like #expressions