使用Python进行相关性分析

16 sec read

在数据分析时,经常会针对两个变量进行相关性分析。在Python中主要用到的方法是pandas中的corr()方法。

  • corr():如果由数据框调用corr函数,那么将会计算每个列两两之间的相似度,返回DataFrame
  • corr(other):如果由序列调用corr方法,那么只是该序列与传入的序列之间的相关度,返回一个数值型,大小为相关度

我们以pandas.DataFrame.corr()为例进行详细说明:

DataFrame.corr(method=’pearson’, min_periods=1)

参考链接:http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.corr.html

线性相关关系通常采用皮尔逊(Pearson)相关系数r来度量连续变量之间线性相关强度

  • r>0:线性正相关
  • r<0:线性负相关
  • r=0:两个变量之间不存在线性关系(并不代表两个变量之间不存在任何关系)

线性相关系数|r|的取值范围:

  • 低度相关:0 <= |r| <= 0.3
  • 中度相关:3 <= |r| <= 0.8
  • 高度相关:8 <= |r| <= 1

相关性的可视化呈现:

参考链接:

打赏作者
微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

Pandas学习之差分函数diff

在上一篇的文章中,我们学习了Pandas的shift函数,今天要来学习的是diff函数,shift函数与dif
55 sec read

Pandas Shift函数学习笔记

在使用Pandas的过程中,有时会遇到shift函数,今天就一起来彻底学习下。先来看看帮助文档是怎么说的: &
1 min read

《怕蛇的人怎么学Python》:开篇

先前在自己的博客上,零散的写了一些Python的学习笔记,涉及到的内容比较凌乱,完全没有逻辑。反思自己对所学的
3 sec read

发表评论

电子邮件地址不会被公开。 必填项已用*标注