分类: 器→工具

Python文本摘要工具Sumy

在先前整理的自然语言处理之自动摘要这篇文章中介绍了TextTeaser和TextRank两种自动摘要的方法。今天要介绍的sumy工具不但包含了上述两种方法,还包含了其他文本摘要方法。 Sumy简介 sumy是一个用于文本摘要…

器→工具, 开源项目 ·

Python标准库之日志记录logging

logging模块简介 Python的logging模块是一个非常强大的工具,用于在应用程序中记录和管理日志信息。它提供了灵活的功能,可以在不同的输出目标(如控制台、文件、网络等)中记录日志,并支持不同的日志级别。先前基…

Python标准库之操作系统接口

OS:与操作系统进行交互 Python的os模块是一个非常强大的模块,它提供了一些与操作系统进行交互的函数和方法。这个模块允许你执行一些与文件系统、进程、环境变量等相关的操作。以下是对os模块的一些详细介绍: 文…

器→工具, 编程语言 ·

Python标准库之终端处理

curses:终端处理 curses模块是Python标准库中用于创建终端用户界面的模块,主要用于开发基于文本的界面程序。它提供了用于处理终端窗口、绘制文本、捕获用户输入等功能的接口。 主要功能 终端控制:控制终端的…

器→工具, 编程语言 ·

Python HTML解析工具PyQuery

PyQuery是一个用于解析和操作HTML文档的Python库,灵感来自于jQuery,提供了一种简洁且强大的方式来处理HTML文档。它允许开发者使用类似于jQuery的CSS选择器来查找和操作HTML元素,这使得处理网页数据变得直观和高…

器→工具, 开源项目 ·

开源的数据湖存储框架Hudi

Hudi简介 Apache Hudi(Hadoop Upserts and Incrementals)是一个开源的数据湖存储框架,旨在支持高效的数据更新、删除和增量处理。Hudi通过提供数据湖存储的事务能力,简化了数据的管理和查询,使其成为构建实时数…

器→工具, 开源项目 ·

兼容Kafka的流处理平台Redpanda

Redpanda简介 Redpanda是一种现代流处理平台,旨在提供高性能、低延迟的消息流处理能力。它是一个Kafka API兼容的流处理引擎,专为云原生环境设计,提供了许多改进的特性和功能。 基础特性 兼容性:Redpanda与…

器→工具, 开源项目 ·

开源流处理框架Flink

Flink简介 Apache Flink是一个开源的流处理框架,旨在提供高性能、低延迟的实时数据流处理能力,同时支持批处理任务。Flink以其强大的流处理能力、灵活的API和丰富的生态系统而广受欢迎。 Flink核心特性 处理无界…

器→工具, 开源项目 ·

开源列式存储Kudu

Kudu简介 Apache Kudu是一个开源的列式存储引擎,专为快速分析和随机访问而设计,适用于大数据工作负载。它填补了Hadoop生态系统中对需要快速分析和低延迟更新的应用程序的需求。 核心特性 列式存储:Kudu采用…

器→工具, 开源项目 ·

分布式存储数据库Hbase

Hbase简介 产生背景 Apache HBase的产生背景可以追溯到对大规模数据存储和处理需求的迅速增长,尤其是在互联网公司和其他需要处理海量数据的行业中。 大数据需求的增长:随着互联网的快速发展,尤其是社交媒体…

器→工具, 开源项目 ·