» 2020 » 9月

机器学习算法之线性判别分析(LDA)

线性判别分析(linear discriminant analysis, LDA)一种常用的数据降维方法,目的是在保持分类的前体下把数据投影至低维空间以降低计算复杂度。在学习LDA之前,有必要将其与自然语言处理领域的LDA区别开来,在自然…

机器学习算法之主成分分析PCA

主成分分析(Principal components analysis,以下简称PCA)是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。一般我们提到降维最容易想到的算法就是PCA,下面我们就对PCA的原理做…

机器学习聚类算法之Mean Shift

在K-Means算法中,最终的聚类效果受初始的聚类中心的影响,K-Means++算法的提出,为选择较好的初始聚类中心提供了依据,但是算法中,聚类的类别个数k仍需事先制定,对于类别个数事先未知的数据集,K-Means和K-Means…

机器学习, 法→原理 ·

Matplotlib 点、线形状及颜色

在Python中经常使用matplotlib画图,为了让图像显示的更加好看,经常需要对图表点、线形状及颜色进行设置。为了避免遗忘,整理相关的信息。 先来看看matplotlib画图方法的官方说明: from matplotlib import py…

机器学习之距离与相似度计算

欧几里得距离 在数学中,欧几里得距离或欧几里得度量是欧几里得空间中两点间“普通”(即直线)距离。欧几里得距离有时候有称欧氏距离,在数据分析及挖掘中经常会被使用到,例如聚类或计算相似度。 如果我们…

机器学习算法之决策树分类

什么是决策树 决策树(decision tree)是一种依托于策略抉择而建立起来的树。机器学习中,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。 树中每个节点表示某个对象,而每个分叉路径则代…

机器学习, 法→原理 ·

Linux安装之swap交换分区大小设置

Linux中Swap(即:交换分区),类似于Windows的虚拟内存,就是当内存不足的时候,把一部分硬盘空间虚拟成内存使用,从而解决内存容量不足的情况。 在安装Linux系统的时候需要单独设置swap分区而Windows安装没…

器→工具, 工具软件 ·

Google词向量工具Word2Vec

word2vec是Google在2013年推出的一个NLP工具,它的特点是将所有的词向量化,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系。word2vec工具主要包含两个模型:跳字模型(skip-gram)和连续词袋…

ElasticSearch 实现经纬度附近搜索

ElasticSearch除了支持文本检索外,还支持地理信息检索。它主要支持两种类型的地理查询:一种是地理点(geo_point),即经纬度查询,另一种是地理形状查询(geo_shape),即支持点、线、圈、多边形查询等。 ElasticSea…

数据, 术→技巧, 研发 ·

Python检验数据是否正态分布

在对数据进行处理前,有事需要判断数据是否呈正态分布,比如线性回归,比如使用3-sigma判断数据是否异常。常用的正态分布检测方法: Shapiro-Wilk test Shapiro-Wilk test是一种在频率上统计检验中检验正态性的方…

数据, 术→技巧 ·