Conductor 简介 Conductor 是由 Netflix 开发的一个开源微服务编排平台,旨在帮助开发者构建复杂的分布式应用程序。它特别适用于需要管理多个微服务的长时间运行的业务流程和工作流。 核心概念 工作流(Workfl…
CDAP简介 CDAP(Cask Data Application Platform)是一个开源的、企业级的数据集成和应用平台,旨在简化大数据应用的开发、部署和管理。CDAP通过提供可视化的开发环境、强大的数据集成能力和自动化的数据管道管理,…
在使用SHAP对模型特征进行可视化输出的时候,会遇到输出的图形格式与预期的不符。以下面的图为例,比如是类别型特征时,默认的展示方式可能有些怪。 比较方便的解决方案是将数据导出为Pandas的DataFrame,然后自…
平时在使用LightGMB,需要保存训练好的模型。以下是梳理的几种方式: 使用LightGBM 自带的save_model 方法 import lightgbm as lgb # 假设已经训练好的模型是 model model = lgb.LGBMClassifier() model.fit(X_t…
Apache Beam 简介 Apache Beam 是一个统一的编程模型,用于定义和执行大规模的数据处理任务,支持批处理和流处理。它提供了一种抽象层,使开发者可以编写一次数据处理逻辑,然后在不同的分布式处理引擎(如 Apache…
Kubeflow简介 Kubeflow是一个开源的机器学习平台,旨在简化在Kubernetes上部署、管理和扩展机器学习工作流的过程。它提供了一整套工具和组件,帮助数据科学家和工程师从数据准备、模型训练到部署和监控,构建完整的…
Metaflow简介 Metaflow是由Netflix开发并开源的一个数据科学框架,旨在帮助数据科学家和工程师更容易地构建和管理可扩展的数据科学工作流。Metaflow提供了一个用户友好的API,支持在本地和云端(如AWS)执行工作流…
Azkaban简介 Azkaban 是一个开源的批处理工作流调度系统,由 LinkedIn 开发,用于管理和调度大规模数据处理任务。它主要用于数据工程和数据分析领域,帮助用户定义和执行复杂的工作流。 产生背景 Azkaban 的产生…
Argo Workflows 简介 Argo Workflows 是一个Kubernetes原生的工作流引擎,专为运行在 Kubernetes 集群上的容器化任务设计。它允许用户定义、调度和管理复杂的工作流,广泛应用于机器学习、数据处理、CI/CD 和其他自…
Apache Ranger简介 Apache Ranger是一个强大的开源安全框架,专为Hadoop生态系统中的数据治理和安全控制而设计。Ranger提供了一个集中化的安全策略管理平台,可以帮助企业管理和实施细粒度的访问控制,确保数据的安…