分类: 开源项目

列式存储格式Parquet与ORC

Apache Parquet 简介 Apache Parquet 是一种列式存储格式,专为高效处理大规模数据而设计。它最初由 Twitter 和 Cloudera 开发,现在是 Apache 软件基金会的顶级项目。Parquet 的设计目标是优化存储效率和查询性能…

器→工具, 开源项目 ·

内存数据结构存储Redis

Redis简介 Redis是一个开源的高性能键值存储系统,其全称为“Remote Dictionary Server”。它被广泛用作内存缓存、数据库、消息中间件和分布式锁等场景。 Redis的特点 高性能:Redis的读写速度非常快,能读的速…

开源数据转换和建模工具dbt

dbt简介 dbt (data build tool)是一个开源的数据转换和建模工具,由 dbt Labs 开发和维护。dbt 旨在简化数据仓库中的数据转换和建模过程,帮助数据工程师和分析师高效地管理和执行数据管道。dbt 核心(dbt-core)是…

器→工具, 开源项目 ·

交互式数据分析工具Zeppelin

Zeppelin简介 Apache Zeppelin是一个开源的Notebook工具,旨在为数据科学家、数据工程师和分析师提供一个交互式的环境,用于数据探索、可视化和协作分析。它支持多种后端数据处理引擎,使用户能够在一个统一的界面…

开源事件驱动自动化平台StackStorm

StackStorm简介 StackStorm是一个开源的事件驱动自动化平台,旨在通过自动化工作流来协调和管理IT基础设施、应用程序和服务。它结合了事件监控、反应规则和自动化操作,为DevOps团队提供了一种强大的工具,用于管理…

器→工具, 开源项目 ·

开源的HDFS存储管理系统SSM

SSM(Smart Storage Manager)简介 SSM(Smart Storage Manager)是一个由 Intel 开源的 HDFS 存储管理系统,致力于提供 HDFS 数据的智能管理方案。 SSM 的核心功能 SSM 的核心功能主要围绕数据的智能管理展开,…

器→工具, 开源项目 ·

Python工作流管理系统Snakemake

Snakemake简介 Snakemake是一个用于创建可重现和可扩展的数据分析管道的工作流管理系统。它广泛应用于生物信息学、数据科学和科学研究领域,帮助用户自动化和管理复杂的数据处理任务。Snakemake的设计灵感来自GNU M…

器→工具, 开源项目 ·

命令行数据迁移工具sling-cli

sling-cli 是一个由 SlingDataIO 开发的命令行界面工具,旨在提供便捷的数据操作和管理功能。 sling-cli 简介 项目背景与目的 SlingDataIO 专注于数据集成和数据处理解决方案,sling-cli 是其推出的一款用于简…

器→工具, 开源项目 ·

开源分布式 SQL 查询引擎Trino

Trino简介 Trino(原名PrestoSQL)是一个开源的分布式SQL查询引擎,设计用于对各种数据源进行高速查询。Trino的设计初衷是为了解决大规模数据分析的需求,能够在数据湖、数据仓库和其他数据存储系统上进行交互式分…

器→工具, 开源项目 ·

开源的监控和警报工具Prometheus

Prometheus简介 Prometheus是一个开源的系统监控和报警工具包,最初由SoundCloud开发,并在2012年作为开源项目发布。它现已成为云原生计算基金会(CNCF)的一部分,并且在监控领域获得了广泛的使用。Prometheus以其…

器→工具, 开源项目 ·