在 Pandas 中,DataFrame.head() 方法默认输出一个格式化的表格,这在 Jupyter Notebook 或终端中查看时通常已经比较可读。但是,如果你希望以更好的文本格式输出,尤其是在需要将输出嵌入到其他文档或日志中时, …
Open Data Lake简介 Open Data Lake 是一种数据存储和管理架构,旨在以一种开放、灵活和可扩展的方式处理大量的多结构化数据。数据湖的概念是将数据以原始格式存储,以便在需要时进行分析和处理。Open Data Lake …
ETL(Extract, Transform, Load) 和 ELT(Extract, Load, Transform) 是两种常见的数据集成方法,它们在数据处理的顺序上存在显著差异。 ETL(提取、转换、加载) 过程: 首先从各种数据源中提取数据,…
Adtributor 算法简介 Adtributor 算法是由微软研究院在 2014 年提出的一种用于多维时间序列异常根因分析的方法。它主要用于解决以下问题:当某个关键性能指标 (KPI) 发生异常波动时,如何快速准确地找出导致该异常…
指标波动贡献率 指标波动贡献率是一种用于分析和衡量不同因素对某一指标变动影响的统计方法。它在经济学、金融学、市场分析以及其他领域中被广泛应用。通过分析指标波动贡献率,可以更好地理解各个因素在指标变动…
Bokeh简介 Bokeh 是一个用于创建交互式和可视化丰富的 web 应用程序的 Python 库。它专为需要在现代 Web 浏览器中呈现复杂数据可视化的场景而设计,旨在帮助数据科学家、分析师和开发人员以简洁的方式创建高效和动…
Polars简介 Polars是一个用于数据处理和分析的开源库,特别适用于处理大型数据集。它最初是用Rust编写的,这使得它在性能上具有显著优势,特别是在内存管理和多线程处理方面。Polars也提供了Python接口,使得Pytho…
Pandera简介 Pandera 是一个用于验证、清理和文档化 Pandas 数据框架(DataFrame 和 Series)的 Python 库。它提供了基于类型注释的方式来定义数据验证规则,确保数据符合预期格式和约束。这对于数据管道的构建、…
gRPC简介 gRPC 是一个现代化的、高性能的 远程过程调用(Remote Procedure Call, RPC)框架,由 Google 开发并开源。它基于 HTTP/2 协议,使用 Protocol Buffers(protobuf)作为接口定义语言(IDL)和数据序列化…
现在再写这篇文章感觉有些不合时宜,目前,貌似很少人再讨论大数据,也很少人再讨论Hadoop。整理这篇文章,是为了探寻最新的技术方向。 新技术替代的组件 Hadoop技术栈的许多组件已经被功能更强、性能更高的新技…