机器学习

机器学习算法Boosting

机器学习通常会被分为2大类:监督学习和非监督学习。在监督学习中,训练数据由输入和期望的输出组成,然后对非训练数
1 min read

AI/ML还是SQL,最好的选择是什么?

将AI/ML与SQL放在一起可能会让人觉得奇怪,因为两者并不在同一领域内,也没要什么可比性,另外两个也不存在互
6 sec read

KNN分类后的效果评估

前面的2篇文章中,一篇介绍了KNN的原理,另外一篇主要讲解的是如何使用sklearn进行KNN分类,今天主要学
1 min read

使用 Scikit-learn 进行 KNN 分类

最近邻(KNN)是一种非常简单、易于理解、通用性强的机器学习算法,广泛应用于金融、医疗、政治、手写检测、图像识
8 sec read

K-近邻算法KNN学习笔记

什么是K-近邻算法? K近邻法(k-nearest neighbor, k-NN)是1967年由Cover T
33 sec read

K-Means算法之K值的选择

K-Means是一个超级简单的聚类方法,说他简单,主要原因是使用它时只需设置一个K值(设置需要将数据聚成几类)
1 min read

聚类算法之K-Means及其变种

根据训练样本中是否包含标签信息,机器学习可以分为监督学习和无监督学习。聚类算法是典型的无监督学习,其训练的样本
47 sec read

信息熵与相对熵(KL距离)

信息熵 在信息论中,熵是接收的每条消息中包含的信息的平均量,又被称为信息熵、信源熵、平均自信息量。这里, 消息
25 sec read

相似度计算之minhash

在数据挖掘中,一个最基本的问题就是比较两个集合的相似度。通常通过遍历这两个集合中的所有元素,统计这两个集合中相
38 sec read

相似度计算之kendall秩相关系数

在统计学中,肯德尔相关系数是以Maurice Kendall命名的,并经常用希腊字母τ(tau)表示其值。肯德
31 sec read

相似度计算之兰氏距离

兰氏距离(Lance and Williams distance)堪培拉距离(Canberra Distanc
7 sec read

使用马氏距离发现异常点

先前学习了很对的距离计算方法,今天从网上学习到了一篇使用马氏距离发现异常数据的文章,摘录下来,供以后复习。 假
8 sec read