钱魏Way

1029篇文章

数据仓库SQL查询工具Hue

Hue简介 Hue(Hadoop User Experience)是一个开源的Web界面应用,旨在为使用Apache Hadoop生态系统的用户提供一个友好的用户界面。它集成了多种Hadoop组件,简化了大数据操作和管理,使用户能够更容易地进行数据分…

器→工具, 开源项目 ·

分布式资源管理Mesos

Mesos简介 Apache Mesos是一个开源的分布式系统内核,它提供了有效的资源管理和容错机制,旨在构建大型、分布式的计算系统。 基本概述 Apache Mesos最初由加州大学伯克利分校的AMPLab开发,并于2013年成为Apac…

器→工具, 开源项目 ·

分布式协调服务ZooKeeper

ZooKeeper简介 Apache ZooKeeper是一个开源的分布式协调服务,广泛用于分布式系统中以解决配置管理、命名服务、分布式同步和集群管理等问题。它提供了一种简单而强大的机制来实现这些功能,从而简化分布式应用程序…

器→工具, 开源项目 ·

微服务与模块化单体架构

什么是微服务? 微服务(Microservices)是一种软件架构风格,将一个应用程序划分为一组小型的、独立运行的服务。每个服务都专注于完成一种特定的功能,可以独立开发、部署和扩展。这种架构与传统的单体应用(Monol…

术→技巧, 研发 ·

开源实时分析数据库Druid

Druid简介 Apache Druid是一个开源的分布式实时分析数据库,专为高性能的OLAP(在线分析处理)查询而设计。Druid的设计目标是提供低延迟的数据摄取、快速的查询响应和高效的数据聚合能力,使其非常适合于需要实时数…

器→工具, 开源项目 ·

实时数据分析数据库Doris

Doris简介 Apache Doris是一个现代化的实时数据分析数据库,旨在提供高性能的交互式SQL查询分析。它最初由百度开发,并贡献给Apache软件基金会。Doris的设计目标是为大规模数据分析提供简单易用、快速且高效的解决…

器→工具, 开源项目 ·

开源任务调度系统Dolphin Scheduler

DolphinScheduler简介 DolphinScheduler是一个分布式、大数据工作流任务调度系统,专为复杂的任务依赖和大数据场景而设计。DolphinScheduler是Apache软件基金会的顶级项目,拥有活跃的开源社区。社区定期发布新版本…

器→工具, 开源项目 ·

开源数据加载工具DLT

DLT简介 DLT (Data Loading Tool)是一个由DLTHub开发的开源数据加载工具,旨在简化数据从各种来源到目标数据仓库的加载过程。DLT提供了一种高效、灵活且易于使用的方法来构建和管理数据管道。 项目背景 DLTHub…

器→工具, 开源项目 ·

开源数据湖存储系统Delta Lake

DeltaLake 简介 DeltaLake 是一个开源的存储层,构建在 Apache Spark 之上,旨在实现可靠的、可扩展的、高性能的数据湖。它通过引入 ACID 事务、版本控制和 schema 演化等功能,解决了传统数据湖的一些固有问题,…

器→工具, 开源项目 ·

开源数据工作流编排工具Dagster

Dagster简介 Dagster是一个开源的数据工作流编排工具,专注于数据管道的开发、测试、监控和维护。它旨在帮助数据工程师和数据科学家构建可靠且可扩展的数据管道。 核心概念 Pipeline(管道):在Dagster中,管…

器→工具, 开源项目 ·