分类: 器→工具

任务编排与调度工具Airflow

Airflow简介 Apache Airflow是一个用于编排和调度复杂工作流的开源平台,广泛应用于数据工程和数据科学领域。它提供了一种灵活的方式来定义、调度和监控数据管道。 Airflow是一个编排、调度和监控 workflow 的平台…

器→工具, 开源项目 ·

开源实时数据同步工具Apache NiFi

Apache NiFi 简介 Apache NiFi 是一个强大的数据流管理和自动化工具,旨在简化数据的采集、传输、处理和分发。它特别适合于构建和管理复杂的数据流管道,支持从各种数据源到不同目标系统的数据传输。 Apache NiFi…

器→工具, 开源项目 ·

Hadoop数据搬运工具Sqoop

Sqoop简介 Sqoop(SQL-to-Hadoop)是一个开源工具,主要用于在Apache Hadoop和传统关系型数据库(如MySQL、PostgreSQL、Oracle、SQL Server等)之间高效传输大规模数据。它简化了数据从关系数据库到Hadoop分布式文…

器→工具, 开源项目 ·

异构数据同步工具DataX

DataX简介 DataX是阿里巴巴开源的一款轻量级的数据同步工具,旨在解决异构数据源之间的数据传输问题。它支持多种数据源,包括关系型数据库、NoSQL数据库、Hadoop、FTP、消息队列等。DataX的设计目标是提供一个简单…

器→工具, 开源项目 ·

地理空间数据库Tile38

Tile38简介 Tile38是一个开源的内存型地理空间数据库,专门用于处理地理空间数据和位置服务。它是由AxiomDataScience开发的,旨在支持实时地理空间应用。Tile38提供了丰富的功能,使其成为处理地理位置数据的强大工…

数据湖存储系统Paimon

Paimon简介 Apache Paimon是一个面向大数据生态系统的高性能数据湖存储系统。它最初是由Flink社区开发的,旨在为大数据处理提供高效的存储解决方案。 Apache Paimon(以前称为Flink Table Store)是一个专为流处…

器→工具, 开源项目 ·

Python标注库之IO模块

io模块简介 io模块是Python标准库中的一个核心模块,提供了Python对I/O操作的基本支持。它支持各种文件和流的读写操作,并且为不同类型的I/O操作提供了统一的接口。io模块是Python3引入的,用于替代Python2中的fil…

器→工具, 编程语言 ·

分布式OLAP数据库StarRocks

StarRocks简介 StarRocks是一个高性能的分布式关系型数据库,专为在线分析处理(OLAP)场景而设计。它起源于Apache Doris项目,并在此基础上进行了大量优化和改进。 StarRocks的存储引擎 StarRocks主要设计为一款…

器→工具, 开源项目 ·

开源分布式NoSQL系统Cassandra

Cassandra简介 Apache Cassandra是一个开源的分布式NoSQL数据库系统,旨在处理大型数据集并提供高可用性和无单点故障。它最初由Facebook开发,用于解决其收件箱搜索问题,并在2008年开源。Cassandra以其可扩展性和…

器→工具, 开源项目 ·

开源分布式消息中间件RocketMQ

RocketMQ简介 Apache RocketMQ是一个开源的分布式消息中间件,最初由阿里巴巴开发,并于2016年捐赠给Apache软件基金会。RocketMQ以其高性能、低延迟和高可靠性在业界广泛使用,尤其是在金融和电子商务领域。 核…