所有文章

开源流处理框架Flink

Flink简介 Apache Flink是一个开源的流处理框架,旨在提供高性能、低延迟的实时数据流处理能力,同时支持批处理任务。Flink以其强大的流处理能力、灵活的API和丰富的生态系统而广受欢迎。 Flink核心特性 处理无界…

器→工具, 开源项目 ·

开源列式存储Kudu

Kudu简介 Apache Kudu是一个开源的列式存储引擎,专为快速分析和随机访问而设计,适用于大数据工作负载。它填补了Hadoop生态系统中对需要快速分析和低延迟更新的应用程序的需求。 核心特性 列式存储:Kudu采用…

器→工具, 开源项目 ·

分布式存储数据库Hbase

Hbase简介 产生背景 Apache HBase的产生背景可以追溯到对大规模数据存储和处理需求的迅速增长,尤其是在互联网公司和其他需要处理海量数据的行业中。 大数据需求的增长:随着互联网的快速发展,尤其是社交媒体…

器→工具, 开源项目 ·

任务编排与调度工具Airflow

Airflow简介 Apache Airflow是一个用于编排和调度复杂工作流的开源平台,广泛应用于数据工程和数据科学领域。它提供了一种灵活的方式来定义、调度和监控数据管道。 Airflow是一个编排、调度和监控 workflow 的平台…

器→工具, 开源项目 ·

开源实时数据同步工具Apache NiFi

Apache NiFi 简介 Apache NiFi 是一个强大的数据流管理和自动化工具,旨在简化数据的采集、传输、处理和分发。它特别适合于构建和管理复杂的数据流管道,支持从各种数据源到不同目标系统的数据传输。 Apache NiFi…

器→工具, 开源项目 ·

Hadoop数据搬运工具Sqoop

Sqoop简介 Sqoop(SQL-to-Hadoop)是一个开源工具,主要用于在Apache Hadoop和传统关系型数据库(如MySQL、PostgreSQL、Oracle、SQL Server等)之间高效传输大规模数据。它简化了数据从关系数据库到Hadoop分布式文…

器→工具, 开源项目 ·

异构数据同步工具DataX

DataX简介 DataX是阿里巴巴开源的一款轻量级的数据同步工具,旨在解决异构数据源之间的数据传输问题。它支持多种数据源,包括关系型数据库、NoSQL数据库、Hadoop、FTP、消息队列等。DataX的设计目标是提供一个简单…

器→工具, 开源项目 ·

地理空间数据库Tile38

Tile38简介 Tile38是一个开源的内存型地理空间数据库,专门用于处理地理空间数据和位置服务。它是由AxiomDataScience开发的,旨在支持实时地理空间应用。Tile38提供了丰富的功能,使其成为处理地理位置数据的强大工…

数据湖存储系统Paimon

Paimon简介 Apache Paimon是一个面向大数据生态系统的高性能数据湖存储系统。它最初是由Flink社区开发的,旨在为大数据处理提供高效的存储解决方案。 Apache Paimon(以前称为Flink Table Store)是一个专为流处…

器→工具, 开源项目 ·

Python标注库之IO模块

io模块简介 io模块是Python标准库中的一个核心模块,提供了Python对I/O操作的基本支持。它支持各种文件和流的读写操作,并且为不同类型的I/O操作提供了统一的接口。io模块是Python3引入的,用于替代Python2中的fil…

器→工具, 编程语言 ·