8 个版本 (有破坏性)
0.11.1 | 2020年6月10日 |
---|---|
0.11.0 | 2020年3月28日 |
0.10.0 | 2019年10月18日 |
0.9.0 | 2019年10月9日 |
0.5.1 | 2019年7月26日 |
#8 in #labeling
1MB
20K SLoC
注意: 贴纸已被 SyntaxDot 取代,它支持 许多 新功能
- 多任务学习。
- 预训练的转换器模型,例如 BERT 和 XLM-R。
- 除了序列标注的解析外,还增加了双线性解析。
- 词形还原。
sticker
sticker 是一种使用神经网络的序列标注器。
简介
sticker 是一个序列标注器,它可以使用循环神经网络、转换器或扩张卷积网络。原则上,它可以用于执行任何序列标注任务,但到目前为止,重点一直放在
- 词性标注
- 拓扑场标注
- 依存关系解析
- 命名实体识别
功能
- 输入表示
- finalfusion 嵌入与子词单位
- 双向字节 LSTM
- 隐藏表示
- 双向循环神经网络(LSTM 或 GRU)
- 转换器
- 扩张卷积
- 分类层
- Softmax(最佳-N)
- CRF
- 部署
- 与
libtensorflow
链接的独立二进制文件 - 非常自由的 许可证
- 带模型的 Docker 容器
- 与
状态
sticker 几乎已准备好投入生产,我们正在准备发布 1.0.0 版本。当前版本创建的图表和模型必须与 sticker 1.x.y 兼容。在 1.0.0 发布之前,仍可能进行破坏性 API 或配置文件更改。
下一步是什么
参考文献
sticker 使用了以下论文中的技术或从中获得灵感
- Finding Function in Form: Compositional Character Models for Open Vocabulary Word Representation. Wang Ling, Chris Dyer, Alan W Black, Isabel Trancoso, Ramón Fermandez, Silvio Amir, Luís Marujo, Tiago Luís, 2015, Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing
- 基于拓扑域的转换依赖句法分析. Daniël de Kok, Erhard Hinrichs, 2016, 第54届计算语言学协会年会论文集
- 可行的依赖句法分析作为序列标记. Michalina Strzyz, David Vilares, Carlos Gómez-Rodríguez, 2019, 第2019年北美计算语言学协会会议:人语言技术
问题
您可以在 sticker 问题跟踪器 中报告错误和功能请求。
许可
sticker 采用 蓝橡模型许可协议版本 1.0.0 许可。在 tf-proto
中的 Tensorflow 协议缓冲定义采用 Apache 许可协议版本 2.0。贡献者名单也可用 此链接 查看。
致谢
- sticker 由 Daniël de Kok & Tobias Pütz 开发。
- sticker 的 Python 前身由 Erik Schill 开发。
- Sebastian Pütz 和 Patricia Fischer 审查了 sticker 项目中的大量代码。
依赖项
~27MB
~583K SLoC