皮尔逊相关系数的学习

24 sec read

在统计学中,皮尔逊积矩相关系数(英语:Pearson product-moment correlation coefficient,又称作 PPMCC或PCCs, 文章中常用r或Pearson’s r表示)用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。在自然科学领域中,该系数广泛用于度量两个变量之间的相关程度。它是由卡尔·皮尔逊从弗朗西斯·高尔顿在19世纪80年代提出的一个相似却又稍有不同的想法演变而来的。这个相关系数也称作“皮尔森相关系数r”。

皮尔逊相关系数的定义

两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商。假设有两个变量X、Y,那么两变量间的皮尔逊相关系数可通过以下公式计算:

公式一:

1

公式二:

2

公式三:

3

公式四:

4

以上列出的四个公式等价,其中E是数学期望,cov表示协方差,N表示变量取值的个数。

皮尔逊相关系数的解释

皮尔逊相关系数理解有两个角度

1、以高中课本为例,将两组数据首先做Z分数处理之后,然后两组数据的乘积和除以样本数。Z分数一般代表正态分布中数据偏离中心点的距离。等于变量减掉平均数再除以标准差。标准差则等于变量减掉平均数的平方和再除以样本数最后再开方。所以我们可以将公式依次精简为:

3

以下为python的实现:

2、 按照大学的线性数学(几何学)的解释,可以看做是两组数据的向量夹角的余弦。

对于没有中心化的数据, 相关系数与两条可能的回归线y=gx(x) 和 x=gy(y) 夹角的余弦值一致。

1、n个数值组成的行(x1, x2, x3,… xn)称为n维向量简记为大写字母X

    \[|X|=\sqrt{x_1^2+x_2^2+x_3^2+...+x_n^n}\]

定义为向量X的模,向量X与Y的内积为:   X·Y=x1*y1+x2*y2+..xn*yn

2、向量X及Y的向量夹角余弦按照下式计算:

    \[\cos(\theta )={A\cdot B \over \|A\|\|B\|}\]

3、向量夹角余弦约接近1说明两向量相似度越高。

以下为Python的实现:

从以上解释,也可以理解皮尔逊相关的约束条件:

  1. 两个变量间有线性关系
  2. 变量是连续变量
  3. 变量均符合正态分布,且二元分布也符合正态分布
  4. 两变量独立

在实践统计中一般只输出两个系数,一个是相关系数也就是计算出来的相关系数大小(在-1到1之间),另一个是独立样本检验系数,用来检验样本一致性。

参考链接:

打赏作者
微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

K-近邻算法KNN学习笔记

什么是K-近邻算法? K近邻法(k-nearest neighbor, k-NN)是1967年由Cover T
2 min read

使用Prophet进行时间序列预测

Prophet是Facebook开源的预测工具,相比ARIMA模型,Prophet真的是非常的简单。只要读入两
1 min read

采用时间序列预测股价变化

时间序列简介 在数学上,随机过程被定义为一族时间随机变量,即{x(t),t∈T},其中T表示时间t的变动范围。
5 min read

One Reply to “皮尔逊相关系数的学习”

发表评论

电子邮件地址不会被公开。 必填项已用*标注