分类: 数据

Python大数据处理工具之PySpark

PySpark简介 PySpark 是 Apache Spark 的 Python API,它使得 Python 开发者能够使用 Spark 的分布式计算能力进行大规模数据处理和分析。PySpark 提供了与 Scala 和 Java API 类似的功能,并且与 Python 生态系统…

分布式日志收集系统Flume

Flume简介 Flume 是一个分布式、可靠且高效的系统,主要用于大规模日志数据的收集、聚合和传输。它是 Apache 软件基金会的一个开源项目,特别适合将大量日志数据从不同的数据源转移到一个集中式的数据存储系统,比…

数据仓库之列式存储ClickHouse

ClickHouse简介 ClickHouse 是一个开源的列式数据库管理系统(Column-Oriented DBMS),专为实时大数据分析而设计。它支持实时查询,能够处理PB级别的数据,并且在大多数情况下提供了非常高的查询性能。ClickHouse…

数据, 术→技巧 ·

Python可视化工具Altair

Altair简介 Python包Altair是一个基于Vega和Vega-Lite构建的声明式数据可视化库。它通过简洁的语法和直观的API,使得创建具有交互性的统计图表变得简单而直观。 主要特点 声明式语法:Altair使用声明…

数据, 术→技巧 ·

SQL中IN与EXISTS的使用

在 SQL 中,IN 和 EXISTS(以及它们的否定形式 NOT IN 和 NOT EXISTS)是常用的子查询条件,用于检查某个值是否在子查询结果集中存在。虽然它们可以实现类似的功能,但在语法、性能和行为上存在一些差异。 IN …

数据, 术→技巧 ·

Python大数据处理工具Dask

Dask简介 Dask是一个用于并行计算的Python库,它旨在扩展Python的生态系统,使其能够处理大规模数据计算。Dask通过提供动态任务调度系统和大数据集合(如并行数组、数据帧等),帮助开发者在多核处理器或集群上有…

Python数据可视化工具Panel

Panel简介 Panel 是一个用于创建交互式仪表板和可视化应用程序的 Python 库。它建立在 HoloViz 生态系统之上,与其他可视化工具(如 Bokeh、Matplotlib 和 Plotly)无缝集成。Panel 提供了一种简单而强大的方式来…

数据, 术→技巧 ·

Python数据可视化库Holoviews

Holoviews简介 HoloViews 是一个用于数据可视化的 Python 库,旨在简化复杂数据的可视化过程,并促进数据分析与探索。它提供了一种声明性的方法来描述数据与其表示方式,从而使得用户可以更快速地从数据中获取洞察…

数据, 术→技巧 ·

基于网格的经纬度轨迹聚类

针对经纬度聚类,先前的文章中介绍过使用DBSCAN进行聚类的方法,我们来回顾下DBSCAN的一些特性: 基于密度的聚类方法,主要参数是 eps(邻域半径)和 min_samples(形成核心点所需的最小点数)。 通过扩展…

数据, 术→技巧 ·

Ollama实战:单词卡片的生成

在上一篇文章大语言模型本地化部署工具Ollama,介绍了Ollama的使用,周末在家在此基础上实现了一个简答的单词卡片生成的尝试。内容比较基础。仅供学习。 项目目标 使用Python+Ollama本地生成单词卡片供学习新单词…

数据, 术→技巧 ·