2 个不稳定版本
0.10.0-dev |
|
---|---|
0.2.0 | 2024 年 7 月 2 日 |
0.1.1 |
|
0.1.0 | 2024 年 4 月 20 日 |
#362 在 数据库实现
每月 196 次下载
用于 arroyo-udf-plugin
48KB
892 行
Arroyo Cloud | 入门 | 文档 | Discord | 网站
Arroyo 是一个用 Rust 编写的分布式流处理引擎,旨在高效地执行流数据的状态计算。与传统批处理不同,流式处理引擎可以操作有界和无界的来源,一旦结果可用就立即发出。
简而言之:Arroyo 允许您对高容量实时数据进行复杂查询,并以亚秒级结果返回。
特性
🦀 SQL 和 Rust 管道
🚀 每秒可扩展到数百万个事件
🪟 支持窗口和连接等状态操作
🔥 对管道进行状态检查点以实现容错和恢复
🕒 通过 数据流模型 进行及时流处理
用例
一些示例用例包括
- 检测欺诈和安全事件
- 实时产品和业务分析
- 实时数据仓库或数据湖的实时摄取
- 实时机器学习特征生成
为什么选择 Arroyo
已经有多个现有的流式处理引擎,包括 Apache Flink、Spark Streaming 和 Kafka Streams。为什么还要创建一个新的呢?
- 无服务器操作:Arroyo 管道设计用于在现代云环境中运行,支持无缝扩展、恢复和重新调度
- 高性能 SQL:SQL 是一等关注点,具有始终如一的优秀性能
- 面向非专业人士设计:Arroyo 清晰地将管道 API 与其内部实现分离。您不需要是流式处理专家就可以构建实时数据管道。
入门指南
您可以通过运行以下docker命令来使用单个节点Arroyo集群开始:
$ docker run -p 8000:8000 ghcr.io/arroyosystems/arroyo-single:latest
或者如果您已安装Cargo,您可以使用arroyo
命令行工具。
$ cargo install arroyo
$ arroyo start
然后,在https://127.0.0.1:8000加载Web UI。
要获取更详细的指南,请参阅入门指南。
一旦Arroyo运行,请按照教程创建您的第一个实时管道。
开发Arroyo
我们欢迎社区的贡献!请参阅开发者设置指南以开始,并通过discord或创建问题与团队联系。
社区
- Discord — 支持和项目讨论
- GitHub issues — 错误和功能请求
- Arroyo Blog — Arroyo团队的更新
Arroyo Cloud
不想自托管?Arroyo Systems为Arroyo提供全面管理的云托管。在此处注册。
依赖项
~15–24MB
~328K SLoC