数据

IPython学习之魔法命令

IPython提供了许多魔法命令,使得在IPython环境中的操作更加得心应手。魔法命令都以%或者%%开头,以
9 sec read

聚类算法之ISODATA

ISODATA算法(Iterative Self Organizing Data Analysis Techn
7 sec read

聚类算法之Mean Shift

在K-Means算法中,最终的聚类效果受初始的聚类中心的影响,K-Means++算法的提出,为选择较好的初始聚
56 sec read

K-Means算法之K值的选择

K-Means是一个超级简单的聚类方法,说他简单,主要原因是使用它时只需设置一个K值(设置需要将数据聚成几类)
1 min read

聚类算法之K-Means及其变种

根据训练样本中是否包含标签信息,机器学习可以分为监督学习和无监督学习。聚类算法是典型的无监督学习,其训练的样本
47 sec read

信息熵与相对熵(KL距离)

信息熵 在信息论中,熵是接收的每条消息中包含的信息的平均量,又被称为信息熵、信源熵、平均自信息量。这里, 消息
25 sec read

相似度计算之minhash

在数据挖掘中,一个最基本的问题就是比较两个集合的相似度。通常通过遍历这两个集合中的所有元素,统计这两个集合中相
38 sec read

相似度计算之kendall秩相关系数

在统计学中,肯德尔相关系数是以Maurice Kendall命名的,并经常用希腊字母τ(tau)表示其值。肯德
31 sec read

相似度计算之兰氏距离

兰氏距离(Lance and Williams distance)堪培拉距离(Canberra Distanc
7 sec read

使用马氏距离发现异常点

先前学习了很对的距离计算方法,今天从网上学习到了一篇使用马氏距离发现异常数据的文章,摘录下来,供以后复习。 假
6 sec read

常见相似度计算方法回顾

最近学习了常见的一些相似度计算的方法,在寻找资料的过程中找到了一篇较好的博客。主要是图做的比较好。所以拿过来做
6 sec read

相似度计算之马氏距离

马氏距离(Mahalanobis Distance)是由印度统计学家马哈拉诺比斯(P. C. Mahalano
24 sec read