#english #tts #tokenization #language #tokens #numbers #dictionary

sentence

Sentence 将英语语言句子分词,用于 TTS 应用程序

2 个版本

0.0.2 2020 年 5 月 11 日
0.0.1 2020 年 5 月 10 日

#708 in 音频

BSD-4-Clause

26KB
519

sentence

一个库,将英语语言句子解析成语义标记,以便输入到 TTS 系统中。这有助于那些不能在无结构输入上训练的模型。

这基于我之前写的某些旧的 Rust 代码,需要进行现代化改造。我还有一些东西想要添加(字典查找),并且目前的代码效率肯定不高。

Package Build Status codecov

功能路线图

以下功能尚未实现

  • 根据字典回调查找单词和复数形式
  • 缩写和首字母缩略词
  • 日期、时间、持续时间
  • 驼峰字符串
  • 货币/价格
  • 表情符号、表情
  • 序数、比率
  • 等等。

我想从互联网上找到的文本中包含更多的测试用例。

许可证

BSD 4 条款

版权(c)2016、2020,Brandon Thomas。保留所有权利。

在以下条件满足的情况下,允许以源代码和二进制形式重新分配和使用,无论是否修改:

  1. 源代码重新分配必须保留上述版权声明、本条件列表和以下免责声明。

  2. 二进制形式的重新分配必须在本产品的文档和/或其他材料中复制上述版权声明、本条件列表和以下免责声明。

  3. 提及本软件的功能或使用情况的任何广告材料必须显示以下认可:

    本产品包括 Brandon Thomas([email protected][email protected])开发的软件。

  4. 未经事先书面许可,不得使用版权所有者或其贡献者的姓名来认可或推广源自本软件的产品。

本软件由版权持有者“按现状”提供,并且不承担任何明示或暗示的保证,包括但不限于对适销性和特定用途适用性的暗示保证。在任何情况下,版权持有者不应对任何直接、间接、偶然、特殊、示范性或后果性损害(包括但不限于替代货物或服务的采购;使用、数据或利润的损失;或业务中断)承担责任,无论此类损害是否因使用本软件引起,即使已被告知此类损害的可能性。

依赖项

~2.2–3MB
~54K SLoC