常用相关性分析存在的问题 1、有许多非线性的关系是分数根本无法检测到的,比如下图: 2、计算出来的矩阵是对称的,即a与b的相关性同b与a的相同。更多的时候,关系是不对称的。一个有3个唯一值的…
在空间索引类问题中,一个最普遍而又最重要的问题是:给定你某个点的坐标,你如何能够在海量的数据点中找到他所在的区域以及最靠近他的点?”,比方说客户在路上突然想吃饭了,那么就要根据他的位置查询最近的餐馆并…
之前的文章详细介绍 Google 的词向量工具Word2Vec、Facebook 的词向量工具FastText、斯坦福大学词向量工具Glove。之前的文章主要从原理层面进行了介绍。今天想要分享的只要内容是如何使用这些工具。及比较针对相同…
近年来,深度学习技术在自然语言处理领域中得到了广泛应用。基于深度神经网络的模型已经在词性标注、命名实体识别、情感分类等诸多任务上显著超越了传统模型。用深度学习技术来处理自然语言文本,离不开文本的向量…
Prophet简介 时间序列(Time Series Analysis)作为计量经济学的三大数据形态之一,比较主流的观点认为,时间序列受四种成分影响: 趋势:宏观、长期、持续性的作用力 周期:比如商品价格在较短时间内,围绕某个…
在Python中经常使用matplotlib画图,为了让图像显示的更加好看,经常需要对图表点、线形状及颜色进行设置。为了避免遗忘,整理相关的信息。 先来看看matplotlib画图方法的官方说明: from matplotlib import pyplo…
Linux中Swap(即:交换分区),类似于Windows的虚拟内存,就是当内存不足的时候,把一部分硬盘空间虚拟成内存使用,从而解决内存容量不足的情况。 在安装Linux系统的时候需要单独设置swap分区而Windows安装没有此…
Surus 简介 Surus 是 NetFlix 开源的 UDFs,是基于 pig 和 hive 的数据分析工具。Surus 中的功能能够解决多种多样的问题,例如评分预测模型、异常检测与模式匹配等。目前开源的 UDF 功能主要包括两个,包括 ScorePM…
Impala是 Cloudera 公司主导开发的新型查询系统,它提供 SQL 语义,能查询存储在 Hadoop 的 HDFS 和 HBase 中的 PB 级大数据。已有的 Hive 系统虽然也提供了 SQL 语义,但由于 Hive 底层执行使用的是 MapReduce 引…