#sticker #transformer #tensorflow #field #finalfusion #syntax-dot #成功

sticker-tf-proto

sticker使用的Tensorflow协议缓冲区定义

5个版本 (破坏性更新)

0.11.0 2020年3月28日
0.10.0 2019年10月18日
0.7.0 2019年9月23日
0.6.0 2019年8月17日
0.1.0 2019年7月26日

#finalfusion中排名第3


2个crate中使用(通过sticker

Apache-2.0

1MB
18K SLoC

警告:sticker已被SyntaxDot取代,它支持许多新功能

  • 多任务学习。
  • 预训练的转换器模型,如BERT和XLM-R。
  • 除了序列标注的解析外,还包括二元依存句法分析。
  • 词形还原。

sticker

sticker是一个使用神经网络的序列标注器。

简介

sticker是一个序列标注器,可以使用循环神经网络、转换器或膨胀卷积网络。原则上,它可以用于执行任何序列标注任务,但迄今为止的重点是

  • 词性标注
  • 拓扑字段标注
  • 依存句法分析
  • 命名实体识别

功能

  • 输入表示
    • finalfusion带有子词单位的嵌入
    • 双向字节LSTM
  • 隐藏表示
    • 双向循环神经网络(LSTM或GRU)
    • 转换器
    • 膨胀卷积
  • 分类层
    • Softmax(最佳-N)
    • CRF
  • 部署
    • libtensorflow链接的独立二进制文件
    • 非常自由的许可证
    • 带有模型的Docker容器

状态

sticker几乎已准备好投入生产,我们正在准备发布1.0.0版本。使用当前版本创建的图和模型必须与sticker 1.x.y兼容。在发布1.0.0之前,API或配置文件可能仍然会有破坏性更改。

接下来要做什么

参考

sticker使用了以下论文的技术或受到其启发

问题

您可以在 sticker 问题跟踪器 中报告错误和功能请求。

许可证

sticker 在 蓝橡模型许可证版本 1.0.0 下授权。在 tf-proto 中的 Tensorflow 协议缓冲区定义在 Apache 许可证版本 2.0 下授权。贡献者名单也可用 在此处

致谢

  • sticker 由 Daniël de Kok 和 Tobias Pütz 开发。
  • sticker 的 Python 前身由 Erik Schill 开发。
  • Sebastian Pütz 和 Patricia Fischer 在 sticker 项目中审查了大量代码。

依赖关系

~1.3–2.3MB
~36K SLoC