分类: 数据

相关性分析:Pearson、Kendall、Spearman

在分析特征间相关性时,常使用的方法是pandas.DataFrame.corr: DataFrame.corr(self, method=’pearson’, min_periods=1) 其中包含的方法主要为: pearson:Pearson相关系数 kendall:Kendall秩相关…

机器学习算法之岭回归、Lasso回归和ElasticNet回归

在处理较为复杂的数据的回归问题时,普通的线性回归算法通常会出现预测精度不够,如果模型中的特征之间有相关关系,就会增加模型的复杂程度。当数据集中的特征之间有较强的线性相关性时,即特征之间出现严重的多重…

机器学习算法之线性回归

线性回归是统计学总最常用的算法之一。从根本上来说,当你想表示两个变量间数学关系时,就可以使用线性回归。当你使用它时,你首先假设输出变量(有时称为响应变量、因变量或标签)和预测变量(有时称为自变量、解…

机器学习算法之逻辑回归

逻辑回归算法的名字里虽然带有“回归”二字,但实际上逻辑回归算法是用来解决分类问题的。简单来说, 逻辑回归(Logistic Regression)是一种用于解决二分类(0 or 1)问题的机器学习方法,用于估计某种事物的可能性…

机器学习算法之Softmax Regression

由于Logistic Regression算法复杂度低、容易实现等特点,在工业界中得到广泛使用,如计算广告中的点击率预估等。但是,Logistic Regression算法主要是用于处理二分类问题,若需要处理的是多分类问题,如手写字识别…

机器学习算法之朴素贝叶斯

贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。 贝叶斯定理 贝叶斯定理实际上就是计算“条件概率” 的公式…

MySQL存储引擎MyISAM、InnoDB

在使用MySQL的过程中对MyISAM和InnoDB这两个概念存在了些疑问,到底两者引擎有何分别一直是存在我心中的疑问。为了解开这个谜题,搜寻了网络,找到了如下信息: MyISAM是MySQL的默认数据库引擎(5.5版之前)…

数据, 术→技巧, 研发 ·

MySQL命名、设计及使用规范

最近在看MySQL相关的内容,整理如下规范,作为一名刚刚学习MySQL的菜鸟,整理的内容非常的基础,中间可能涉及到有错误的地方,欢迎批评指正,看到有错误的地方期望看官留言。 数据库环境 dev:开发环境,开发…

数据, 术→技巧, 研发 ·

数据分析应该掌握的SQL技能

以下内容是个人整理的分析人员应该掌握的一些SQL技能,相比正常的SQL教程存在不同的侧重点。 一般查询语句 需要掌握的关键词(包含顺序): SELECT FROM JOIN WHERE GROUP BY HAVING ORDER BY LIMIT S…

数据, 术→技巧 ·

多经纬度坐标中心点计算方法

在实际的应用场景,通常会遇到计算多个经纬度中心的需求。而在计算经纬度中心点通常有三种方式,每种方式对应不同的需求。 地理中心点 地理中心点的求解过程非常的简单,即将每个经纬度转化成x,y,z的坐标值。然后…

数据, 术→技巧 ·