分类: 开源项目

分布式计算框架Spark

Spark简介 ApacheSpark是一个开源的分布式计算框架,专为大规模数据处理而设计。它提供了丰富的工具和库,支持多种数据处理任务,包括批处理、流处理、机器学习和图计算。Spark以其速度、易用性和通用性而闻名,广…

器→工具, 开源项目 ·

实时流式计算系统Storm

Apache Storm简介 Apache Storm是一个开源的、分布式的实时计算系统,旨在处理和分析大规模的数据流。它可以持续地接收数据,并在收到数据后立即进行处理,适用于需要低延迟的数据处理场景,如实时数据分析、在线机…

器→工具, 开源项目 ·

开源数据湖表格格式Iceberg

Apache Iceberg 简介 Apache Iceberg 是一种用于庞大分析数据集的开放表格式。它的设计目标是解决传统数据湖存储格式(如 Hive)在管理大规模数据时遇到的关键问题,提供可靠的数据存储和管理功能。 基本定…

器→工具, 开源项目 ·

Python网页抓取包requests-html

requests-html简介 requests-html是一个用于网页抓取和解析的Python库,由Kenneth Reitz创建,旨在为开发者提供一个强大且易用的工具来处理HTML内容。与传统的网页抓取库不同,requests-html集成了对现代网页技术(…

Python文本摘要工具Sumy

在先前整理的自然语言处理之自动摘要这篇文章中介绍了TextTeaser和TextRank两种自动摘要的方法。今天要介绍的sumy工具不但包含了上述两种方法,还包含了其他文本摘要方法。 Sumy简介 sumy是一个用于文本摘要…

器→工具, 开源项目 ·

Python HTML解析工具PyQuery

PyQuery是一个用于解析和操作HTML文档的Python库,灵感来自于jQuery,提供了一种简洁且强大的方式来处理HTML文档。它允许开发者使用类似于jQuery的CSS选择器来查找和操作HTML元素,这使得处理网页数据变得直观和高…

器→工具, 开源项目 ·

开源的数据湖存储框架Hudi

Hudi简介 Apache Hudi(Hadoop Upserts and Incrementals)是一个开源的数据湖存储框架,旨在支持高效的数据更新、删除和增量处理。Hudi通过提供数据湖存储的事务能力,简化了数据的管理和查询,使其成为构建实时数…

器→工具, 开源项目 ·

兼容Kafka的流处理平台Redpanda

Redpanda简介 Redpanda是一种现代流处理平台,旨在提供高性能、低延迟的消息流处理能力。它是一个Kafka API兼容的流处理引擎,专为云原生环境设计,提供了许多改进的特性和功能。 基础特性 兼容性:Redpanda与…

器→工具, 开源项目 ·

开源流处理框架Flink

Flink简介 Apache Flink是一个开源的流处理框架,旨在提供高性能、低延迟的实时数据流处理能力,同时支持批处理任务。Flink以其强大的流处理能力、灵活的API和丰富的生态系统而广受欢迎。 Flink核心特性 处理无界…

器→工具, 开源项目 ·

开源列式存储Kudu

Kudu简介 Apache Kudu是一个开源的列式存储引擎,专为快速分析和随机访问而设计,适用于大数据工作负载。它填补了Hadoop生态系统中对需要快速分析和低延迟更新的应用程序的需求。 核心特性 列式存储:Kudu采用…

器→工具, 开源项目 ·