使用Python进行相关性分析

16 sec read

在数据分析时,经常会针对两个变量进行相关性分析。在Python中主要用到的方法是pandas中的corr()方法。

  • corr():如果由数据框调用corr函数,那么将会计算每个列两两之间的相似度,返回DataFrame
  • corr(other):如果由序列调用corr方法,那么只是该序列与传入的序列之间的相关度,返回一个数值型,大小为相关度

我们以pandas.DataFrame.corr()为例进行详细说明:

DataFrame.corr(method=’pearson’, min_periods=1)

参考链接:http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.corr.html

线性相关关系通常采用皮尔逊(Pearson)相关系数r来度量连续变量之间线性相关强度

  • r>0:线性正相关
  • r<0:线性负相关
  • r=0:两个变量之间不存在线性关系(并不代表两个变量之间不存在任何关系)

线性相关系数|r|的取值范围:

  • 低度相关:0 <= |r| <= 0.3
  • 中度相关:0.3 <= |r| <= 0.8
  • 高度相关:0.8 <= |r| <= 1

相关性的可视化呈现:

参考链接:

打赏作者
微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

PageRank算法学习与研究

什么是PageRank PageRank,简称PR,是Google排名运算法则(排名公式)的一部分,是Goog
2 min read

多经纬度坐标的中心点计算方法

在实际的应用场景,通常会遇到计算多个经纬度中心的需求。而在计算经纬度中心点通常有三种方式,每种方式对应不同的需
1 min read

XGBoost之类别特征的处理

无论是XGBoost还是其他的Boosting Tree,使用的Tree都是cart回归树,这也就意味着该类提
5 min read

发表评论

电子邮件地址不会被公开。 必填项已用*标注