MDX/MDD 文件格式简介 MDX 和 MDD 是字典程序 MDict 使用的文件格式,其中 MDX 文件用于存放定义,而 MDD 用于存放其他资源文件,比如图片,发音,虽然存放的内容是不一样的,但是两种文件的结构是一致的。 MDX 和…
Prometheus简介 Prometheus是一个开源的系统监控和报警工具包,最初由SoundCloud开发,并在2012年作为开源项目发布。它现已成为云原生计算基金会(CNCF)的一部分,并且在监控领域获得了广泛的使用。Prometheus以其…
Prefect简介 Prefect是一个现代的工作流编排和管理工具,专为数据工程和数据科学任务设计。它提供了一种简单而强大的方式来定义、执行和监控数据管道。Prefect的设计目标是提高数据管道的可靠性、可扩展性和易用性…
Pinot 简介 Apache Pinot 是一个实时分布式 OLAP 数据存储和分析系统,专为低延迟、高吞吐量的查询而设计。Pinot 最初由 LinkedIn 开发,用于支持其内部的分析应用,如 LinkedIn 的 "Who Viewed My Profile" 和其他…
Papermill简介 Papermill是一个开源工具,主要用于在数据科学和数据工程工作流程中处理 Jupyter Notebook。它的核心功能是允许用户对 Jupyter Notebook 进行参数化执行,使得同一个 Notebook 可以在不同的参数配置…
Nextflow简介 Nextflow是一个用于数据驱动的计算管道(pipeline)开发和执行的开源框架,特别适合生物信息学和科学计算领域。它简化了复杂工作流程的创建和管理,使得科学家和工程师能够高效地处理大规模数据分析任…
Luigi简介 Luigi是一个由Spotify开发的开源Python模块,旨在简化复杂数据管道的构建、管理和调度。它专注于数据流的自动化和任务依赖的管理,非常适合处理大规模数据处理任务。 核心概念 任务(Task):Luigi…
Apache Livy 简介 Apache Livy 是一个开源的 REST 服务,旨在简化与 Apache Spark 集群的交互。它为 Spark 提供了一种轻量级的接口,允许用户通过 REST API 提交作业、管理 Spark 会话和执行交互式查询。Livy 的出…
Kyuubi简介 Kyuubi是一个开源的多租户、大规模数据分析引擎服务,基于Apache Spark构建,旨在提供高效、易用和安全的SQL-on-Spark解决方案。它的设计目标是通过提供一个统一的接口来简化大数据分析的使用,使用户能…
Kestra简介 Kestra是一个现代化的开源工作流编排工具,专注于数据处理和自动化任务的管理。它旨在简化复杂数据工作流的构建、调度和监控。 核心概念 工作流(Workflow):Kestra的工作流是由多个任务(Task)…