Druid简介 Apache Druid是一个开源的分布式实时分析数据库,专为高性能的OLAP(在线分析处理)查询而设计。Druid的设计目标是提供低延迟的数据摄取、快速的查询响应和高效的数据聚合能力,使其非常适合于需要实时数…
Doris简介 Apache Doris是一个现代化的实时数据分析数据库,旨在提供高性能的交互式SQL查询分析。它最初由百度开发,并贡献给Apache软件基金会。Doris的设计目标是为大规模数据分析提供简单易用、快速且高效的解决…
DolphinScheduler简介 DolphinScheduler是一个分布式、大数据工作流任务调度系统,专为复杂的任务依赖和大数据场景而设计。DolphinScheduler是Apache软件基金会的顶级项目,拥有活跃的开源社区。社区定期发布新版本…
DLT简介 DLT (Data Loading Tool)是一个由DLTHub开发的开源数据加载工具,旨在简化数据从各种来源到目标数据仓库的加载过程。DLT提供了一种高效、灵活且易于使用的方法来构建和管理数据管道。 项目背景 DLTHub…
DeltaLake 简介 DeltaLake 是一个开源的存储层,构建在 Apache Spark 之上,旨在实现可靠的、可扩展的、高性能的数据湖。它通过引入 ACID 事务、版本控制和 schema 演化等功能,解决了传统数据湖的一些固有问题,…
Dagster简介 Dagster是一个开源的数据工作流编排工具,专注于数据管道的开发、测试、监控和维护。它旨在帮助数据工程师和数据科学家构建可靠且可扩展的数据管道。 核心概念 Pipeline(管道):在Dagster中,管…
Conductor 简介 Conductor 是由 Netflix 开发的一个开源微服务编排平台,旨在帮助开发者构建复杂的分布式应用程序。它特别适用于需要管理多个微服务的长时间运行的业务流程和工作流。 核心概念 工作流(Workfl…
CDAP简介 CDAP(Cask Data Application Platform)是一个开源的、企业级的数据集成和应用平台,旨在简化大数据应用的开发、部署和管理。CDAP通过提供可视化的开发环境、强大的数据集成能力和自动化的数据管道管理,…
Apache Beam 简介 Apache Beam 是一个统一的编程模型,用于定义和执行大规模的数据处理任务,支持批处理和流处理。它提供了一种抽象层,使开发者可以编写一次数据处理逻辑,然后在不同的分布式处理引擎(如 Apache…
Kubeflow简介 Kubeflow是一个开源的机器学习平台,旨在简化在Kubernetes上部署、管理和扩展机器学习工作流的过程。它提供了一整套工具和组件,帮助数据科学家和工程师从数据准备、模型训练到部署和监控,构建完整的…