-
tokenizers
今天最常用的分词器,重点关注性能和多功能性
-
fluent
一种旨在释放自然语言翻译全部表达能力的本地化系统
-
rust-stemmers
一些流行的snowball词干提取算法
-
whatlang
Rust的快速轻量级语言识别库
-
text-splitter
将文本分割成语义块,最多到所需块大小。支持按字符和标记计算长度,并可从Rust和Python调用。
-
lngcnv
语言学:显示发音,方言之间翻译,正字法转换;支持多种语言:英语、拉丁语、波兰语、克丘亚语、西班牙语、提库纳语
-
lingua
一个准确的自然语言检测库,适用于短文本和混合语言文本
-
human_name
解析和比较人名
-
rust-bert
预制的NLP管道和语言模型
-
rustfst
构建、组合、优化和搜索加权有限状态转换器(FSTs)
-
jieba-rs
使用 Rust 实现的 Jieba 中文分词
-
parol
Rust 的 LL(k) 和 LALR(1) 解析生成器
-
picovoice
为 Picovoice 语音识别平台提供的 Rust SDK
-
stam
处理文本离线标注的强大库。这是一个 Rust 库。
-
aws-sdk-connectcontactlens
AWS SDK for Amazon Connect Contact Lens
-
google-language1-cli
用于与云自然语言(协议 v1)交互的完整库
-
google-language1_beta1-cli
用于与云自然语言(协议 v1beta1)交互的完整库
-
chamkho
高棉语、老挝语、缅甸语和泰语分词库和命令行
-
vrl
向量重映射语言
-
pv_rhino
Picovoice 的 Rhino 库的绑定
-
pv_leopard
Picovoice 的 Leopard 库的绑定
-
关键字提取
从文本中提取关键字的算法集合
-
shellchat
将自然语言转换为可执行或解释的shell命令
-
aws-sdk-qconnect
Amazon Q Connect的AWS SDK
-
fluent-syntax
Fluent语法的解析/序列化工具
-
vidyut-prakriya
梵文单词生成器
-
rust_tokenizers
Rust的高性能分词器
-
analiticcl
近似字符串匹配或模糊匹配系统,可用于查找拼写校正或文本归一化的变体
-
creature_feature
可组合的n-gram组合器,既易于使用又非常快速
-
stam-tools
用于在文本上处理离线注释(STAM)的命令行工具
-
wordcut-engine
词分割/断句库
-
text_analysis
分析存储在提供的文件或目录中的*.txt文本。不读取子目录中的文件。统计所有单词,然后在附近(+-5个单词)中搜索每个唯一的单词…
-
fluent-bundle
一种旨在释放自然语言翻译全部表达能力的本地化系统
-
two_timer
英文时间表达式的解析器
-
in_definite
获取与给定单词匹配的不定冠词('a' 或 'an')。例如:an umbrella,a user。
-
tod
一个微型的非官方 Todoist 客户端
-
text2num
解析并将用英语、荷兰语、西班牙语、德语、意大利语或法语书写的数字转换为它们的数字表示
-
stam-python
STAM 是一个处理文本上 standoff 注释的库,这是 Python 绑定
-
gpt-cli
使用自然语言运行 Linux 命令。例如:'show my graphic card' 而不是 'lspci | grep VGA'
-
matcher_py
一个高性能的匹配器,旨在解决单词匹配中的逻辑和文本变化问题,使用 Rust 实现
-
kalosm
预训练 AI 模型的接口
-
stop-words
许多语言中的常用停用词
-
ultra-nlp
一个 NLP 库
-
RustGLM
使用Rust语言实现的性能可靠的高性能智谱ChatGLM SDK自然语言处理
-
eliza
约瑟夫·魏森鲍姆于1966年开发的自然语言处理程序
-
lexmatch
给定一个词汇表,该工具识别目标文本中所有匹配项的词汇匹配工具。使用后缀数组。
-
musicgpt
使用本地运行的LLM根据自然语言提示生成音乐
-
llm_utils
LLM瑞士军刀:无链条 - 只提供工具
-
ltp
Rust的语料库技术平台
-
huggingface/tokenizers-python
💥 为研究和生产优化的最新一代快速状态 tokenizer
-
rsllm
Rust AI流分析器Twitch机器人
-
dragon_db
一个用于RAG的嵌入数据库,带有辅助函数
-
valentinus
使用LMDB绑定构建的下一代向量数据库
-
instant-segment
快速的英文单词分词
-
kalosm-language
一组预训练的语言模型
-
hiramu-cli
一种用于与 AWS Bedrock 上的大型语言模型 (LLM) 交互并基于提示生成文本的命令行界面工具
-
kathoey
使用开放语料库语言学数据进行的文本女性化
-
drug-extraction-cli
用于从文本记录中提取药物的 CLI 工具
-
cmdo-gen
使用自然语言生成终端命令的脚本
-
vidyut-lipi
梵文转写器
-
fluent-pseudo
用于 Project Fluent API 的伪本地化转换 API
-
txtai
txtai 的 Rust 客户端
-
kalosm-sample
用于标记采样和结构化 LLM 采样的通用接口
-
langit
一种简单的语言检测器
-
sif-embedding
平滑逆频率 (SIF),一种简单但强大的句子嵌入技术
-
rust_readability
使用各种可读性公式评估文本复杂性的包
-
自然语言处理
纯Rust编写的自然语言处理库
-
kanpyo
日语词法分析器
-
关键词
Rust编写的快速自动关键词提取(RAKE)实现
-
date_time_parser
Rust编写的NLP库,用于将英语自然语言解析为日期和时间
-
hyphertool
Hypertool是一个用于音节分割和连字符化的命令行工具
-
fluent-testing
为fluent-rs组件测试提供的模拟场景集合
-
natural_syntax
自然语言语法高亮显示
-
tfidf-text-summarizer
一种基于TF-IDF分数的提取性文本摘要系统,用于对句子进行排序并生成摘要
-
ferret
一种基于三元组的工具,用于检测文本文档或程序代码组中的相似性
-
flashtext2
FlashText算法在Rust中的实现
-
commit_crafter
Git提交信息生成器的AI工具
-
reinfer-client
Re:infer的API客户端,对话数据智能平台
-
furze
用Rust编写的有限状态转换器(fst)
-
pragmatic-segmenter
Rust的pySBD v3.1.0版本
-
sbert
句子Bert(SBert)
-
kalosm-language-model
语言模型/转换器的通用接口
-
treebender
受HDPSG启发的Rust符号NLP库
-
yozuk
程序员聊天机器人
-
tu
将自然语言日期/时间字符串转换为UTC的CLI工具
-
clarifai_grpc
Clarifai官方gRPC Rust客户端
-
ai-agents
专为构建和管理生成式AI代理而设计,利用大型语言模型(LLM)的能力
-
sentencepiece-model
从SentencePiece protobuf定义生成的SentencePiece模型解析器
-
ungoliant
OSCAR语料库的管道
-
selmr
用于创建和使用简单可解释语言多重集合表示的包
-
token-counter
wc
用于词元:使用 HF Tokenizers 统计文件中的词元数量 -
wordshk_tools
words.hk (粵典) 的解析器和其他工具的组合
-
wit_owo
最后,Rust 中 wit.ai 的合适库
-
tiniestsegmenter
紧凑的日语分词器
-
seal
Needleman-Wunsch & Smith-Waterman 序列比对
-
syllarust
快速统计音节
-
cephalon
从文档中提取信息,并将其输入到向量数据库以创建强大的知识库助手
-
gpt_text
openai 文本包装器,仅封装一个级别的函数
-
nlpo3
泰语自然语言处理库,具有 Python 和 Node 绑定
-
ayda
询问你的文档任何问题。一个用于使用大型语言模型查询文档的工具。
-
rbert
Bert 嵌入的接口
-
kalosm-llama
为Llama模型提供的接口
-
rphi
为Phi模型提供的接口
-
kalosm-learning
用于构建基于预训练模型的一个简化机器学习库
-
isixhosa
帮助处理isiXhosa文本
-
flesh-reading-ease
计算给定文本和语言的Flesh阅读难度
-
lix-score
计算给定文本和语言的LIX评分
-
tokenizations
对齐库
-
aimo
另一个[ai]模型编排器
-
wit_ai_rs
与wit.ai API交互的非官方Rust crate
-
uniquewords-rs
统计文本文件(s)中单词的频率
-
postagger
受NLTK启发的词性标注器
-
nlprule
一个快速、低资源的自然语言处理和错误纠正库
-
korrektor
处理乌兹别克语文本
-
gptshell
开发者用于查询和交互ChatGPT语言能力的工具。GPTshell的目标是在开发过程中简化自然语言处理的使用过程。
-
folia
处理FoLiA XML格式(语言学标注格式)的高性能库
-
nlsd
自然语言结构化文档
-
truecase
使用统计模型在任意文本中恢复正确的字母大小写
-
kanji
处理和分析日本文本,尤其是汉字
-
berlin-core
识别位置并用UN-LOCODE和ISO-3166-2子区域进行标记
-
textspan
文本区间实用工具
-
tokengeex
基于UnigramLM和TokenMonster的高效代码分词器
-
rassert
流畅、易于扩展的测试断言库
-
eudex
一个快速的音韵还原/哈希算法
-
fasttext-serving
fastText模型服务API服务器
-
polars-ai
一个CLI和库,用于使用自然语言查询和AI与Polars DataFrame交互
-
quickner-core
快速且简单的命名实体识别工具
-
layered-nlp
高度灵活的数据导向NLP框架
-
ragegun
对文本执行基于词典的分析(例如,年龄、性别、PERMA、OCEAN人格特质等)
-
ohnomore
TüBa-D/Z词元转换
-
igo-rs
纯Rust编写的Igo,日语词性标注器(日本語形態素解析)
-
gptsh
人工智能驱动的、新手友好的交互式shell
-
myself
构建由OpenAI语言模型驱动的对话式代理,提供简单的代理抽象以管理交互和记忆
-
chinese-ner
用Rust编写的基于CRF的中文命名实体识别库
-
wordfreq
将wordfreq移植用于查找多种语言中单词的频率
-
str-distance
评估字符串之间距离的距离度量
-
timewarp
用于将英语和德语自然语言解析为日期和时间的NLP库
-
vidyut-kosha
梵文键值存储
-
同音字
大量的N-gram
-
一贴子
异体字查询 获取变体汉字
-
wordpieces
将标记分割成单词片段
-
crawdad
字符级双数组字典
-
edge-transformers
ONNXRuntime的包装器,实现Huggingface的Optimum推理管道,并为C#和C生成绑定
-
cutters
基于规则的句子分割库
-
pithy
超快、令人毛骨悚然的任何语言的文本摘要器
-
rsnltk
基于Rust的自然语言工具包
-
untanglr
基于NLP和英语维基百科单语频率,以概率分割合并的单词
-
bytepiece_rs
使用Rust实现的Bytepiece标记器
-
mmseg
Rust中的中文分词算法MMSEG
-
sesdiff
生成最短编辑脚本(Myers' diff算法),指示如何从列A中的字符串转换为列B中的字符串。还提供编辑距离(levenshtein)。
-
atlatl
双数组Trie
-
vtext
NLP with Rust
-
openai_ChatGPT_api
OpenAI ChatGPT API
-
bleuscore
快速Bleu评分计算器
-
functions_ai
LLM的字符串实现函数
-
fast_aug
文本的快速数据增强
-
wikidump
解析MediaWiki XML导出
-
deepfrog
一个支持FoLiA XML的深度学习NLP套件(PoS、词元还原、NER)
-
symbol-map
值到整数标识符的内存高效映射(也称为词典或符号表),支持快速双向查找
-
ttaw
对着墙壁说话,一个分块的自然语言处理库
-
aprilasr
使用aprilasr-sys对april-asr C API(libaprilasr)进行高级封装
-
gutenberg-rs
用于从古腾堡(https://www.gutenberg.org/)获取信息和数据
-
portal
全文搜索Web服务
-
event_parser
Rust自然语言处理库,用于将英文自然语言解析为iCalendar事件
-
rnltk
Rust自然语言处理工具包
-
when
'When'解析自然语言日期/时间,并生成计算机友好的输出结构
-
zoea
专为婴儿级Rustaceans打造。它包含常见功能的“轻松”按钮,如HTTP GET请求、键值数据库持久化和自然语言处理。
-
chanoma
字符规范化库。用于文字列正規化処理のライブラリです。
-
lingua-latvian-language-model
Lingua的拉脱维亚语言模型,一个精确的自然语言检测库
-
reco-forge
自然语言驱动的推荐生成器
-
whichlang
Rust的一个快速且轻量级的语言检测库
-
rsmorphy
俄语和乌克兰语(即将推出)的语言形态分析/屈折引擎(WIP)
-
drug-extraction-core
从文本记录中提取药物的核心库
-
gecliht
一组文本操作和格式化算法
-
aprilasr-sys
用于April-ASR C API(libaprilasr)的低级FFI绑定
-
nlprule-build
为快速、低资源自然语言处理和错误纠正库构建工具
-
fluent_field_assertions
FluentFieldAssertions是一个库,允许您以类似自然语言的语法编写测试。使用此库,您可以以直观和易读的方式执行字段断言
-
yake-rust
用Rust编写的Yake(另一种关键字提取器)
-
siffra
解析和评估人类友好的数学和自然语言表达式
-
smart-date
解析自然语言文本中的相对和绝对日期
-
charmap
一至(无/一/多)字符映射
-
refac
根据通用自然语言提示转换一些文本
-
bosonnlp
Rust的SDK
-
parattice
递归释义格生成器
-
orphic
为*nix系统提供自然语言接口。(由ChatGPT提供支持)
-
bareun_rs
Bareun是Rust的韩语形态分析器
-
shoulds
用于编写测试断言的直观且简单的库,以自然流畅的语言
-
babel
通用自然语言处理crate,用于修剪、分词和词元化
-
chinese2digits
中文数字到数字的最佳工具。NLP和机器人项目中的实用工具。
-
aiha
🦉 AIHA 帮助您在 🤗 Hub 上找到任何模型的最低要求
-
blingfire
BlingFire 分词库的包装器
-
tradukisto
一种有用的自然语言翻译库和实用程序
-
ssam
split sampler的简称,通过随机抽样将一个或多个基于文本的输入文件分割成多个集合。这对于将数据分割成训练、测试和开发集,或您所需的任何集合很有用。
-
rust_hero
利用NLP增强Rust代码质量的Rust助手
-
rusty_grammar
一种修改后的CYK算法,用于语言
-
human_language_toolkit_chatbot
用纯Rust制作的类似NLTK的聊天机器人
-
lingua-english-language-model
Lingua的英语语言模型,一个准确的自然语言检测库
-
cjieba-sys
不安全的C++jieba的FFI
-
sloword2vec
word2vec的简单实现
-
lingo
检测文本语言
-
libtqsm
支持约300种语言的句子分割器
-
lingua-german-language-model
Lingua的德语语言模型,一个准确的自然语言检测库
-
rust_lemmatizer
用于与词元及其对应词汇的 .csv 字典一起使用的词元化包
-
lingua-spanish-language-model
Lingua 的西班牙语语言模型,这是一个准确的自然语言检测库
-
lingua-french-language-model
Lingua 的法语语言模型,这是一个准确的自然语言检测库
-
aleph-alpha-tokenizer
一个基于词元化思想的快速 tokenizer 实现
-
text-score
ML/DL 中使用的各种度量指标实现
-
vox_box
在 Rust 中处理语音音频
-
ingreedy-rs
ingreedy 的 Rust 版本 - 自然语言食谱成分解析器
-
lingua-portuguese-language-model
Lingua 的葡萄牙语语言模型,这是一个准确的自然语言检测库
-
lingua-chinese-language-model
Lingua 的中文语言模型,这是一个准确的自然语言检测库
-
texting
字符串辅助函数
-
lingua-ukrainian-language-model
Lingua 的乌克兰语语言模型,这是一个准确的自然语言检测库
-
lingua-japanese-language-model
Lingua 的日语语言模型,这是一个准确的自然语言检测库
-
缩写
在英语中展开缩写
-
lingua-arabic-language-model
Lingua的阿拉伯语语言模型,一个精确的自然语言检测库
-
lingua-russian-language-model
Lingua的俄语语言模型,一个精确的自然语言检测库
-
lingua-italian-language-model
Lingua的意大利语语言模型,一个精确的自然语言检测库
-
lingua-malay-language-model
Lingua的马来语语言模型,一个精确的自然语言检测库
-
lingua-nynorsk-language-model
Lingua的挪威语语言模型,一个精确的自然语言检测库
-
lingua-turkish-language-model
Lingua的土耳其语语言模型,一个精确的自然语言检测库
-
lingua-thai-language-model
Lingua的泰语语言模型,一个精确的自然语言检测库
-
lingua-vietnamese-language-model
Lingua的越南语语言模型,一个精确的自然语言检测库
-
lingua-korean-language-model
Lingua的韩语语言模型,一个精确的自然语言检测库
-
lingua-hindi-language-model
Lingua的印地语语言模型,一个精确的自然语言检测库
-
witty
wit.ai客户端库
尝试使用DuckDuckGo进行搜索。[搜索]