分类: 术→技巧

数据处理和分析开源库Polars

Polars简介 Polars是一个用于数据处理和分析的开源库,特别适用于处理大型数据集。它最初是用Rust编写的,这使得它在性能上具有显著优势,特别是在内存管理和多线程处理方面。Polars也提供了Python接口,使得Python…

数据, 术→技巧 ·

Java微服务框架Airlift

Airlift简介 Airlift是一个高性能的Java框架,用于构建分布式系统和微服务。它主要由Presto/Trino社区创建和维护,最初是为支持这些分布式SQL查询引擎的运行而设计的。随着时间的推移,Airlift已被广泛用于构建各…

术→技巧, 研发 ·

Python数据验证处理工具Pandera

Pandera简介 Pandera是一个用于验证、清理和文档化Pandas数据框架(DataFrame和Series)的Python库。它提供了基于类型注释的方式来定义数据验证规则,确保数据符合预期格式和约束。这对于数据管道的构建、数据清理…

数据, 术→技巧 ·

Google搜索引擎架构Caffeine

什么是Google Caffeine? Google Caffeine是Google搜索引擎的一次架构重构,旨在满足不断增长的互联网内容和用户实时搜索需求。它替代了Google早期的分层索引系统,转而采用更加实时的索引机制,使搜索结果更加快速…

产品, 术→技巧 ·

关键绩效指标KPI

什么是KPI? KPI是关键绩效指标(Key Performance Indicator)的缩写。它是一种用于评估和衡量组织或个人在实现其业务目标方面的表现的工具。KPI可以帮助企业确定其在战略目标上的进展情况,并找出需要改进的领域…

术→技巧, 管理 ·

Python执行时间的可视化

在前面的文章Python标准库之性能优化 中学习到了统计 Python 代码执行时间的工具。今天要学习的是一些其他的工具。 SnakeViz SnakeViz 简介 SnakeViz 是一个用于可视化 Python 代码性能分析结果的工具。它是基于 Py…

术→技巧, 研发 ·

初步认识RPC框架gRPC

gRPC简介 gRPC是一个现代化的、高性能的远程过程调用(Remote Procedure Call, RPC)框架,由Google开发并开源。它基于HTTP/2协议,使用Protocol Buffers(protobuf)作为接口定义语言(IDL)和数据序列化工具,是…

数据, 术→技巧 ·

Python读写MDict词典文件

MDX/MDD 文件格式简介 MDX 和 MDD 是字典程序 MDict 使用的文件格式,其中 MDX 文件用于存放定义,而 MDD 用于存放其他资源文件,比如图片,发音,虽然存放的内容是不一样的,但是两种文件的结构是一致的。 MDX 和…

术→技巧, 研发 ·

大数据与Hadoop的生死

现在再写这篇文章感觉有些不合时宜,目前,貌似很少人再讨论大数据,也很少人再讨论Hadoop。整理这篇文章,是为了探寻最新的技术方向。 新技术替代的组件 Hadoop技术栈的许多组件已经被功能更强、性能更高的新技术…

数据, 术→技巧, 研发 ·

微服务与模块化单体架构

什么是微服务? 微服务(Microservices)是一种软件架构风格,将一个应用程序划分为一组小型的、独立运行的服务。每个服务都专注于完成一种特定的功能,可以独立开发、部署和扩展。这种架构与传统的单体应用(Monol…

术→技巧, 研发 ·