分类: 数据

Python检验数据是否正态分布

在对数据进行处理前,有事需要判断数据是否呈正态分布,比如线性回归,比如使用3-sigma判断数据是否异常。常用的正态分布检测方法: Shapiro-Wilk test Shapiro-Wilk test是一种在频率上统计检验中检验正态性的方…

数据, 术→技巧 ·

Netflix异常检测工具Surus初探

Surus简介 Surus是NetFlix开源的UDFs,是基于pig和hive的数据分析工具。Surus中的功能能够解决多种多样的问题,例如评分预测模型、异常检测与模式匹配等。目前开源的UDF功能主要包括两个,包括ScorePMML和Robust A…

K-Means算法之K值的选择

K-Means是一个超级简单的聚类方法,说他简单,主要原因是使用它时只需设置一个K值(设置需要将数据聚成几类)。但问题是,有时候我们拿到的数据根本不知道要分为几类,对于二维的数据,我们还能通过肉眼观察法进行…

数据, 术→技巧 ·