#streaming #sql #data-processing #event-processing #data

app arroyo

Arroyo是一个分布式流处理器,允许用户通过编写SQL来对高容量实时数据进行复杂查询。此命令行界面可用于在Docker中运行Arroyo集群。

2个不稳定版本

0.7.0 2023年10月17日
0.6.0 2023年9月29日

#356数据库实现

MIT/Apache

16KB
262

Arroyo

Arroyo Cloud | 入门 | 文档 | Discord | 网站

Arroyo is dual-licensed under Apache 2 and MIT licenses. PRs welcome! git commit activity CI GitHub release (latest by date)

Arroyo是一个用Rust编写的分布式流处理引擎,旨在高效地对数据流进行有状态的计算。与传统批处理不同,流式引擎可以操作有界和无界的数据源,一旦结果可用即发出。

简而言之:Arroyo允许您以亚秒级的结果对高容量实时数据进行复杂查询。

running job

特性

🦀 SQL和Rust管道

🚀 每秒可扩展至数百万事件

🪟 窗口和连接等有状态操作

🔥 管道故障容忍和恢复的检查点状态

🕒 通过数据流模型进行及时流处理

用例

一些示例用例包括

  • 检测欺诈和安全事件
  • 实时产品和业务分析
  • 实时数据仓库或数据湖的实时摄入
  • 实时机器学习特征生成

为什么选择Arroyo

已经有几个现有的流式引擎,包括Apache FlinkSpark StreamingKafka Streams。为什么还要创建一个新的呢?

  • 无服务器操作:Arroyo管道设计用于在现代云环境中运行,支持无缝扩展、恢复和重新调度
  • 高性能SQL:SQL是首要关注点,性能始终出色
  • 面向非专业人士设计:Arroyo将管道API与其内部实现清晰地分离。您不需要成为流式专家就能构建实时数据管道。

入门

您可以通过运行以下Docker命令来使用单个节点Arroyo集群开始:

$ docker run -p 8000:8000 ghcr.io/arroyosystems/arroyo-single:latest

或者如果您已安装Cargo,您可以使用arroyo命令行界面

$ cargo install arroyo
$ arroyo start

然后,在https://127.0.0.1:8000加载Web界面。

要获取更详细的指南,请参阅入门指南

一旦Arroyo启动,请按照教程创建您的第一个实时管道。

开发Arroyo

我们欢迎来自社区的贡献!查看开发者设置指南以开始,并在discord上联系团队或创建一个问题。

社区

Arroyo云

不想自托管?Arroyo Systems提供Arroyo的完全托管云托管。在此处注册

依赖关系

~15–28MB
~455K SLoC