所有文章

分布式消息队列Pulsar

Pulsar简介 Apache Pulsar是一个开源的分布式消息系统和流处理平台,设计用于高性能、可扩展和持久化的消息传递。它最初由 Yahoo开发,后来在2016年捐赠给 Apache软件基金会,并成为顶级项目。Pulsar以其多租户支…

分布式消息系统Kafka

消息队列简介 学习 Kafka 不可避免地要认识下消息队列,也就是我们常提到的 MQ (Message Queue),因为 Kafka 本质上也是一个消息队列。那么消息队列又是什么呢?先来看一个比较官方的回答。 消息队列是一种进程间…

术→技巧, 研发 ·

分布式日志收集系统Flume

Flume简介 Flume是一个分布式、可靠且高效的系统,主要用于大规模日志数据的收集、聚合和传输。它是Apache软件基金会的一个开源项目,特别适合将大量日志数据从不同的数据源转移到一个集中式的数据存储系统,比如Ha…

数据仓库之列式存储ClickHouse

ClickHouse简介 ClickHouse是一个开源的列式数据库管理系统(Column-Oriented DBMS),专为实时大数据分析而设计。它支持实时查询,能够处理PB级别的数据,并且在大多数情况下提供了非常高的查询性能。ClickHouse由…

数据, 术→技巧 ·

Python如何连接数据库

在先前的文章PEP 249:Python 数据库 API 规范 v2.0 中已经介绍了以下 Python 连接主要数据库的方法。本次在此基础上再做一些补充和完善。 Python 连接关系型数据库 Python 连接 MySQL 在 Python 中,连接 MySQL …

术→技巧, 研发 ·

Python身份认证之OAuth与JWT

OAuth与JWT简介 OAuth简介 OAuth(开放授权)是一种开放标准,允许用户提供一个令牌,而不是用户名和密码来访问他们存储在特定服务提供者的数据。这使得第三方服务可以在不暴露用户凭证的情况下,获得对用户资源的…

术→技巧, 研发 ·

Python图片字符识别工具OCR盘点

OCR(Optical Character Recognition,光学字符识别)是一种技术,用于将印刷或手写文本从图像、扫描的文档或照片中识别并转换为机器可读的文本格式。其主要目的是将非结构化的图像数据转化为可编辑、可搜索的文本…

器→工具, 编程语言 ·

Python 友好格式URL转换工具

Slugify 是一个将字符串转换为 URL 友好格式的过程或工具。通常在创建网页地址(URL)时,需要将标题或其他文本转换为一种只包含字母、数字和连字符的格式,这样的字符串称为“slug”。Slugify 的过程会移除或替换掉…

器→工具, 编程语言 ·

Python生成唯一标识符

在前面的文章中,介绍了分布式全局唯一ID生成方案,本次需要分享的是使用Python来生成唯一标识符。在Python中,唯一标识符(Unique Identifiers)通常用于标识对象或数据的唯一性,以确保在特定上下文中每个实体都…

术→技巧, 研发 ·

Python Markdown的解析与转换

在先前的文章Obsidian 使用之 Markdown 中介绍下 Markdown 语法。今天要梳理的是如何在 Python 中解析和处理 markdown 语法。Python 有几个流行的 Markdown 处理包,可以帮助你将 Markdown 转换为 HTML、PDF,或用…

术→技巧, 研发 ·