分类: 数据

统计学基础之摘要统计

什么是摘要统计? 摘要统计是一种用来描述、概括和呈现数据集特征的统计学工具。它们通常用于数据分析的初步阶段,可以帮助研究者理解数据的基本趋势和模式,但不用于从样本推断总体的结论。摘要统计主要包括两类…

数据, 术→技巧 ·

时序分析中的差分变换

差分变换(Difference Transformation)是一种数学工具,用于处理时间序列数据,尤其是在时间序列分析和信号处理中。差分变换的核心目的在于去除数据中的趋势和季节性成分,使得一个非平稳时间序列变得平稳。平稳性…

数据, 术→技巧 ·

图形检验工具如Q-Q图

图形检验是统计分析中使用图形表示来评估数据的性质或模型拟合优度的一种方法。其中,Q-Q图(Quantile-Quantile Plot)是一种特别常见的图形检验工具,用于比较两个概率分布的形状,尤其是用于检验数据集是否服从某…

数据, 术→技巧 ·

统计学基础之概率分布

什么是概率分布? 概率分布是数学统计中的一个概念,它描述了一个或多个随机变量在各个可能取值上的概率。这些取值可能是离散的,也可能是连续的。 如果是离散的随机变量,我们通常会使用概率质量函数(proba…

数据, 术→技巧 ·

DASH使用简明教程

在先前的介绍过快速数据可视化界面工具Streamlit,Dash是一个与之非常类似的工具,个人在使用Streamlit加载地图呈现时遇到响应非常慢的的问题,于是使用了Dash整理使用起来也非常的简单,这里做下简要的分享。 …

Python数据可视化工具Plotly

Plotly是一个流行的开源图形库,用于创建高质量的交互式数据可视化。它支持多种编程语言,包括Python、R、JavaScript等。Plotly的Python库尤其受欢迎,因为它允许数据科学家和分析师利用Python的强大功能来创建多样…

经纬度坐标轨迹的抽稀

便携设备可以方便的获取经纬度信息,如果按照一定的时间间隔就能获取到具体的行动轨迹。比如: 网约车平台通过获取实时的司机位置判定司机是否偏航 运动记录平台用户的运动轨迹,比如跑步路径等。 如果…

数据, 术→技巧 ·

DBSCAN经纬度聚类实践

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) 是一种常用于聚类分析的算法,它可以很好地应用于经纬度数据的聚类。这种算法特别适合处理大规模的空间数据集,并且能够识别出噪声点。在先…

数据, 术→技巧 ·

数据预处理之分箱

什么是分箱? 数据分箱(Data Binning)是一种数据预处理技术,用于将连续变量分组为一系列“箱”或“区间”,以便于分析。其实分箱的概念其实很好理解,它的本质上就是把数据进行分组。分箱就是把数据按特定的规则进…

数据, 术→技巧 ·

使用ELK监控Nginx日志

在先前的文章中介绍了使用Python解析Nginx日志,今天主要介绍的是使用ELK(Elasticsearch + Logstash + Kibana)来监控Nginx日志。 备注:以下方案占用CPU和内存过大,不适合在云服务器部署。 工具简介 本…

数据, 术→技巧, 运维 ·