5个版本 (破坏性更新)
0.11.0 | 2020年3月28日 |
---|---|
0.10.0 | 2019年10月18日 |
0.7.0 | 2019年9月23日 |
0.6.0 | 2019年8月17日 |
0.1.0 | 2019年7月26日 |
在#finalfusion中排名第3
在2个crate中使用(通过sticker)
1MB
18K SLoC
警告:sticker已被SyntaxDot取代,它支持许多新功能
- 多任务学习。
- 预训练的转换器模型,如BERT和XLM-R。
- 除了序列标注的解析外,还包括二元依存句法分析。
- 词形还原。
sticker
sticker是一个使用神经网络的序列标注器。
简介
sticker是一个序列标注器,可以使用循环神经网络、转换器或膨胀卷积网络。原则上,它可以用于执行任何序列标注任务,但迄今为止的重点是
- 词性标注
- 拓扑字段标注
- 依存句法分析
- 命名实体识别
功能
- 输入表示
- finalfusion带有子词单位的嵌入
- 双向字节LSTM
- 隐藏表示
- 双向循环神经网络(LSTM或GRU)
- 转换器
- 膨胀卷积
- 分类层
- Softmax(最佳-N)
- CRF
- 部署
- 与
libtensorflow
链接的独立二进制文件 - 非常自由的许可证
- 带有模型的Docker容器
- 与
状态
sticker几乎已准备好投入生产,我们正在准备发布1.0.0版本。使用当前版本创建的图和模型必须与sticker 1.x.y兼容。在发布1.0.0之前,API或配置文件可能仍然会有破坏性更改。
接下来要做什么
参考
sticker使用了以下论文的技术或受到其启发
- Finding Function in Form: Compositional Character Models for Open Vocabulary Word Representation. Wang Ling, Chris Dyer, Alan W Black, Isabel Trancoso, Ramón Fermandez, Silvio Amir, Luís Marujo, Tiago Luís, 2015, Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing
- 基于拓扑场的转换依存句法分析. Daniël de Kok, Erhard Hinrichs, 2016, 第54届计算语言学协会年会论文集
- 作为序列标记的可行依存句法分析. Michalina Strzyz, David Vilares, Carlos Gómez-Rodríguez, 2019, 第2019年北美计算语言学协会人机语言技术会议论文集
问题
您可以在 sticker 问题跟踪器 中报告错误和功能请求。
许可证
sticker 在 蓝橡模型许可证版本 1.0.0 下授权。在 tf-proto
中的 Tensorflow 协议缓冲区定义在 Apache 许可证版本 2.0 下授权。贡献者名单也可用 在此处。
致谢
- sticker 由 Daniël de Kok 和 Tobias Pütz 开发。
- sticker 的 Python 前身由 Erik Schill 开发。
- Sebastian Pütz 和 Patricia Fischer 在 sticker 项目中审查了大量代码。
依赖关系
~1.3–2.3MB
~36K SLoC