使用Python进行相关性分析

16 sec read

在数据分析时,经常会针对两个变量进行相关性分析。在Python中主要用到的方法是pandas中的corr()方法。

  • corr():如果由数据框调用corr函数,那么将会计算每个列两两之间的相似度,返回DataFrame
  • corr(other):如果由序列调用corr方法,那么只是该序列与传入的序列之间的相关度,返回一个数值型,大小为相关度

我们以pandas.DataFrame.corr()为例进行详细说明:

DataFrame.corr(method=’pearson’, min_periods=1)

参考链接:http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.corr.html

线性相关关系通常采用皮尔逊(Pearson)相关系数r来度量连续变量之间线性相关强度

  • r>0:线性正相关
  • r<0:线性负相关
  • r=0:两个变量之间不存在线性关系(并不代表两个变量之间不存在任何关系)

线性相关系数|r|的取值范围:

  • 低度相关:0 <= |r| <= 0.3
  • 中度相关:0.3 <= |r| <= 0.8
  • 高度相关:0.8 <= |r| <= 1

相关性的可视化呈现:

参考链接:

打赏作者
微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

AttributeError: ‘NoneTyp…

在PyCharm创建的Virtualenv环境下,使用pip安装包时,老是提示需要升级pip,具体提示信息为:
12 sec read

使用GridSearchCV进行网格搜索

GridSearchCV简介 在机器学习模型中,需要人工选择的参数称为超参数。比如随机森林中决策树的个数,人工
49 sec read

PageRank算法学习与研究

什么是PageRank PageRank,简称PR,是Google排名运算法则(排名公式)的一部分,是Goog
2 min read

发表评论

电子邮件地址不会被公开。 必填项已用*标注