##分词

  1. classi-cine

    一个基于文件名的交互式视频标签工具

    v0.1.4 #classification #bayes #tokenization #vlc #inference #tokenize #file-path
  2. tokenizer-lib

    Rust 中构建解析器的分词工具

    v1.6.0 210 #tokenization #parser #utilities #utils
  3. sponge

    一个强大的 Rust 模块,用于将 Rust 转换为汇编语言

    v0.2.1 #assembly #tokens #convert #generation #low-level #tokenization #module
  4. quote-data

    Rust 的分词库

    v1.0.0 110 #quote #tokenization #data
  5. pikkr

    Rust 中直接提取值而不执行分词的 JSON 解析器

    v0.16.0 #json-parser #json #simd #tokenization #values #performing
  6. derive-finite-automaton

    生成有限自动机的过程宏

    v0.2.0 150 #tokenization #parser #proc-macro #macro-derive #utils #generate
  7. gtokenizers

    侧重于区域集合数据的基因组数据分词

    v0.0.18 #genomic #data #bioinformatics #region #machine-learning #tokenization #set
  8. tuck5

    一种实际的词法分析器/解析器生成器

    v0.2.0 #lexer #parser-generator #parser #tokenization #parse #lex
  9. rten-text

    文本分词和其他机器学习预/后处理函数

    v0.13.0 150 #tokenization #machine-learning #hugging-face #processing #tokenize #bert #input
  10. divvunspell-bin

    适用于 ZHFST/BHFST 拼写检查器的拼写检查器,支持大小写处理和分词支持

    v1.0.0 #spell-checking #case #tokenization #zhfst-bhfst #box #spellers
  11. wordpieces

    将标记分割成词元

    v0.6.1 #piece #word #tokenization #wordpiece #nlp #tokenize
  12. blex

    轻量级词法分析框架

    v0.2.2 #token #tokenizer #tokenization #lexer #lex
  13. divvunspell

    为ZHFST/BHFST拼写器提供的拼写检查库,支持大小写处理和词法分析

    v1.0.0-beta.3 #spell-checking #case #tokenization #zhfst-bhfst #spellers #hfst-ospell
  14. vtext

    使用Rust的NLP

    v0.2.0 #nlp #tokenization #python-bindings #levenshtein #machine-learning #tf-idf #tokenize
  15. sentence

    对英语句子进行词法分析,用于TTS应用

    v0.0.2 #english #tts #tokenization #language #tokens #numbers #lookup
  16. babel

    通用自然语言处理crate,用于修剪、词法分析和词形还原

    v0.1.1 #nlp #processing #lemmatization #tokenization #natural #language #icons
  17. libtqsm

    支持约300种语言的句子分割器

    v0.6.1 #ml #tokenization #nlp #text
  18. iroha

    Rust 的分词库

    v0.1.7 #tokenization #quote #enums #derive #foo-bar #implemented #macro-derive
  19. colorblast

    支持多种编程语言、标记语言和其他格式的语法高亮库

    v0.0.3 #syntax-highlighting #syntax-highlighter #syntax #highlighting #highlighter #tokenization #parser
  20. strizer

    用于文本词法分析的最小化、快速库

    v0.1.0 #tokenization #text #stream-tokenizer #string-tokenizer #ci
  21. text-scanner

    一个基于UTF-8字符的、零拷贝的文本和代码扫描库

    v0.0.3 #lexer #tokenization #token #streaming #streaming-parser #parser #format
  22. any-lexer

    各种编程语言和格式的词法分析器

    v0.0.3 #lexer #tokenization #token #streaming #streaming-parser #parser #programming-language
  23. 使用DuckDuckGo进行搜索。搜索.

  24. quote-data-helpers

    quote-it的内部函数,结构体

    v1.0.0 110 #quote-it #md #tokenization
  25. quicktok

    Byte Pair Encoding (BPE)的最小化、快速、多线程实现,用于LLM词法分析

    v0.1.1 #multi-threaded #llm #pair #byte #tokenization #bpe #encoding
  26. rustrawi

    Rust 版本的原始 PHP Sastrawi

    v0.1.2 #nlp #stem #tokenization #sastrawi #stopword
  27. plrs

    词法分析和标记的多工具

    v0.1.3 #lexer #pyo3 #lexical-analysis #tokenization #multi-tool
  28. quote-data-codegen

    quote-it 的内部代码生成器

    v1.0.0 110 #codegen #quote-it #md #tokenization
  29. iroha-internal

    Iroha 的内部函数和结构

    v0.1.1 #iroha #tokenization #token-stream #quote #enums #derive #foo-bar
  30. derive-finite-automaton-derive

    生成有限自动机的过程宏

    v0.2.0 130 #tokenization #utils #parser #automata #macro-derive #parsing #generate
  31. build-trie

    用于生成表示 trie 结构的匹配和状态代码的过程宏

    v0.1.1 #tokenization #utilities #parser #trie #proc-macro #state #generating
  32. colorblast-cli

    用于多种编程语言、标记语言以及其他格式的语法高亮 CLI

    v0.0.1 #syntax-highlighting #syntax #highlighting #tokenization #highlighter #parser
  33. stp258-traits

    包括 BasicCurrencySettCurrencyAuction 等共享 trait

    v0.5.2 #reserve #traits #shared #elastic #auction #tokenization #protocols
  34. serp-traits

    包括 BasicCurrencySettCurrencyAuction 等共享 trait

    v0.5.3 #reserve #traits #shared #protocols #elastic #auction #tokenization