ElasticSearch除了支持文本检索外,还支持地理信息检索。它主要支持两种类型的地理查询:一种是地理点(geo_point),即经纬度查询,另一种是地理形状查询(geo_shape),即支持点、线、圈、多边形查询等。 ElasticSear…
在对数据进行处理前,有事需要判断数据是否呈正态分布,比如线性回归,比如使用3-sigma判断数据是否异常。常用的正态分布检测方法: Shapiro-Wilk test Shapiro-Wilk test是一种在频率上统计检验中检验正态性的方法…
最近在进行关键词的分析,发现在关键词词表中出现了很多乱码及特殊符号(有部分还是SQL注入),为了解决词问题,想着是否可以通过Python来检测符号和乱码字符。在在搜索引擎的帮助下,找到如下解决方案,测试下来效…
Surus 简介 Surus 是 NetFlix 开源的 UDFs,是基于 pig 和 hive 的数据分析工具。Surus 中的功能能够解决多种多样的问题,例如评分预测模型、异常检测与模式匹配等。目前开源的 UDF 功能主要包括两个,包括 ScorePM…
K-Means是一个超级简单的聚类方法,说他简单,主要原因是使用它时只需设置一个K值(设置需要将数据聚成几类)。但问题是,有时候我们拿到的数据根本不知道要分为几类,对于二维的数据,我们还能通过肉眼观察法进行…
根据训练样本中是否包含标签信息,机器学习可以分为监督学习和无监督学习。聚类算法是典型的无监督学习,其训练的样本中值包含样本的特征,不包含样本的标签信息。在聚类算法中。利用样本的特征,将具有相似属性的…
感谢关注我的个人博客! 关于本人 姓名:钱魏Way 简介:当前就职于一家在线旅游公司,工作岗位为数据产品经理策略产品经理。一直想做的事情是从数据中发现价值,并推动工具化的变现。 当前主要关注的内容: 各…
子曰:学而时习之,不亦说乎!有朋自远方來,不亦乐乎!人不知而不愠,不亦君子乎! 在重读论语之前,我对这句话的理解是:“经常学习,不也喜悦吗?从远方来了朋友,不也快乐吗?别人不了解我也不怨恨,不也是君子…
Impala是 Cloudera 公司主导开发的新型查询系统,它提供 SQL 语义,能查询存储在 Hadoop 的 HDFS 和 HBase 中的 PB 级大数据。已有的 Hive 系统虽然也提供了 SQL 语义,但由于 Hive 底层执行使用的是 MapReduce 引…