在Python中经常使用matplotlib画图,为了让图像显示的更加好看,经常需要对图表点、线形状及颜色进行设置。为了避免遗忘,整理相关的信息。 先来看看matplotlib画图方法的官方说明: from matplotlib import py…
欧几里得距离 在数学中,欧几里得距离或欧几里得度量是欧几里得空间中两点间“普通”(即直线)距离。欧几里得距离有时候有称欧氏距离,在数据分析及挖掘中经常会被使用到,例如聚类或计算相似度。 如果我们…
ElasticSearch除了支持文本检索外,还支持地理信息检索。它主要支持两种类型的地理查询:一种是地理点(geo_point),即经纬度查询,另一种是地理形状查询(geo_shape),即支持点、线、圈、多边形查询等。 ElasticSea…
在对数据进行处理前,有事需要判断数据是否呈正态分布,比如线性回归,比如使用3-sigma判断数据是否异常。常用的正态分布检测方法: Shapiro-Wilk test Shapiro-Wilk test是一种在频率上统计检验中检验正态性的方…
最近在进行关键词的分析,发现在关键词词表中出现了很多乱码及特殊符号(有部分还是SQL注入),为了解决词问题,想着是否可以通过Python来检测符号和乱码字符。在在搜索引擎的帮助下,找到如下解决方案,测试下来效…
Surus简介 Surus是NetFlix开源的UDFs,是基于pig和hive的数据分析工具。Surus中的功能能够解决多种多样的问题,例如评分预测模型、异常检测与模式匹配等。目前开源的UDF功能主要包括两个,包括ScorePMML和Robust A…
K-Means是一个超级简单的聚类方法,说他简单,主要原因是使用它时只需设置一个K值(设置需要将数据聚成几类)。但问题是,有时候我们拿到的数据根本不知道要分为几类,对于二维的数据,我们还能通过肉眼观察法进行…