分类: 器→工具

开源Spark REST 服务Apache Livy

Apache Livy 简介 Apache Livy 是一个开源的 REST 服务,旨在简化与 Apache Spark 集群的交互。它为 Spark 提供了一种轻量级的接口,允许用户通过 REST API 提交作业、管理 Spark 会话和执行交互式查询。Livy 的出…

器→工具, 开源项目 ·

基于Spark的开源分析引擎Kyuubi

Kyuubi简介 Kyuubi是一个开源的多租户、大规模数据分析引擎服务,基于Apache Spark构建,旨在提供高效、易用和安全的SQL-on-Spark解决方案。它的设计目标是通过提供一个统一的接口来简化大数据分析的使用,使用户能…

器→工具, 开源项目 ·

开源工作流编排工具Kestra

Kestra简介 Kestra是一个现代化的开源工作流编排工具,专注于数据处理和自动化任务的管理。它旨在简化复杂数据工作流的构建、调度和监控。 核心概念 工作流(Workflow):Kestra的工作流是由多个任务(Task)…

器→工具, 开源项目 ·

数据科学项目流程工具Kedro

Kedro简介 Kedro是一个开源的Python框架,用于构建可重用、可扩展和可维护的数据科学项目。由QuantumBlack(隶属于麦肯锡公司)开发,Kedro的设计理念是将软件工程的最佳实践应用于数据科学和机器学习项目中。 …

器→工具, 开源项目 ·

数据和机器学习工作流平台Flyte

Flyte简介 Flyte是一个开源的平台,专注于构建和管理可扩展、可重现的数据和机器学习工作流。由Lyft开发并贡献给开源社区,Flyte提供了一套全面的工具和框架,帮助开发者和数据科学家高效地构建、测试和运行数据管…

开源项目 ·

嵌入式OLAP系统DuckDB

DuckDB简介 DuckDB是一个开源的嵌入式在线分析处理(OLAP)数据库管理系统,专为快速分析查询而设计。它被称为“SQLite for Analytics”,因为它的设计目标是提供类似于SQLite的嵌入式数据库体验,专注于分析工作负载…

器→工具, 开源项目 ·

开源OLAP分析引擎Kylin

Kylin简介 Apache Kylin是一个开源的分布式分析型数据仓库,专门用于大规模数据集的实时分析。它最初由eBay开发,并于2015年成为Apache软件基金会的顶级项目。Kylin通过提供SQL接口和多维分析(OLAP)功能,使用户…

器→工具, 开源项目 ·

数据仓库SQL查询工具Hue

Hue简介 Hue(Hadoop User Experience)是一个开源的Web界面应用,旨在为使用Apache Hadoop生态系统的用户提供一个友好的用户界面。它集成了多种Hadoop组件,简化了大数据操作和管理,使用户能够更容易地进行数据分…

器→工具, 开源项目 ·

分布式资源管理Mesos

Mesos简介 Apache Mesos是一个开源的分布式系统内核,它提供了有效的资源管理和容错机制,旨在构建大型、分布式的计算系统。 基本概述 Apache Mesos最初由加州大学伯克利分校的AMPLab开发,并于2013年成为Apac…

器→工具, 开源项目 ·

分布式协调服务ZooKeeper

ZooKeeper简介 Apache ZooKeeper是一个开源的分布式协调服务,广泛用于分布式系统中以解决配置管理、命名服务、分布式同步和集群管理等问题。它提供了一种简单而强大的机制来实现这些功能,从而简化分布式应用程序…

器→工具, 开源项目 ·