Druid简介 Apache Druid是一个开源的分布式实时分析数据库,专为高性能的OLAP(在线分析处理)查询而设计。Druid的设计目标是提供低延迟的数据摄取、快速的查询响应和高效的数据聚合能力,使其非常适合于需要实时数…
Doris简介 Apache Doris是一个现代化的实时数据分析数据库,旨在提供高性能的交互式SQL查询分析。它最初由百度开发,并贡献给Apache软件基金会。Doris的设计目标是为大规模数据分析提供简单易用、快速且高效的解决…
DolphinScheduler简介 DolphinScheduler是一个分布式、大数据工作流任务调度系统,专为复杂的任务依赖和大数据场景而设计。DolphinScheduler是Apache软件基金会的顶级项目,拥有活跃的开源社区。社区定期发布新版本…
DLT简介 DLT (Data Loading Tool)是一个由DLTHub开发的开源数据加载工具,旨在简化数据从各种来源到目标数据仓库的加载过程。DLT提供了一种高效、灵活且易于使用的方法来构建和管理数据管道。 项目背景 DLTHub…
DeltaLake 简介 DeltaLake 是一个开源的存储层,构建在 Apache Spark 之上,旨在实现可靠的、可扩展的、高性能的数据湖。它通过引入 ACID 事务、版本控制和 schema 演化等功能,解决了传统数据湖的一些固有问题,…
Dagster简介 Dagster是一个开源的数据工作流编排工具,专注于数据管道的开发、测试、监控和维护。它旨在帮助数据工程师和数据科学家构建可靠且可扩展的数据管道。 核心概念 Pipeline(管道):在Dagster中,管…
Conductor 简介 Conductor 是由 Netflix 开发的一个开源微服务编排平台,旨在帮助开发者构建复杂的分布式应用程序。它特别适用于需要管理多个微服务的长时间运行的业务流程和工作流。 核心概念 工作流(Workfl…
CDAP简介 CDAP(Cask Data Application Platform)是一个开源的、企业级的数据集成和应用平台,旨在简化大数据应用的开发、部署和管理。CDAP通过提供可视化的开发环境、强大的数据集成能力和自动化的数据管道管理,…
在使用SHAP对模型特征进行可视化输出的时候,会遇到输出的图形格式与预期的不符。以下面的图为例,比如是类别型特征时,默认的展示方式可能有些怪。 比较方便的解决方案是将数据导出为Pandas的DataFrame,然后自…
平时在使用LightGMB,需要保存训练好的模型。以下是梳理的几种方式: 使用LightGBM 自带的save_model 方法 import lightgbm as lgb # 假设已经训练好的模型是 model model = lgb.LGBMClassifier() model.fit(X_t…