相似度计算之斯皮尔曼等级相关系数

24 sec read

使用皮尔逊线性相关系数有2个局限:首先,必须假设数据是成对地从正态分布中取得的;其次,数据至少在逻辑范围内是等距的。对不服从正态分布的资料不符合使用矩相关系数来描述关联性。此时可采用秩相关(rank correlation),也称等级相关,来描述两个变量之间的关联程度与方向。斯皮尔曼秩相关系数就是其中一种。

斯皮尔曼等级相关系数对数据条件的要求没有皮尔逊相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关系数来进行研究。

和最基本的相关系数一样,Spearman Rank相关系数可以帮助我们确定两组数据是否向同一个方向移动。和相关系数不太一样的是,Spearman Rank相关系数检验的不是数据之间的关系,而是数据排名之间的关系。这对于数据中的异常值和规模具有更强的鲁棒性。

现结合一个例子来加以说明,某工厂对工人的业务进行了一次考试,欲研究考试成绩与每月产量之间是否有联系,若随机抽选了一个样本,其考试成绩和产量数字如下表:

从表中的数字可以看出,工人的考试成绩愈高其产量也愈高,二者之间的联系程度是很一致的,但是皮尔逊相关系数r=0.676 并不算太高,这是由于它们之间的关系并不是线性的,如果分别按考试成绩和产量高低变换成等级(见上表第3、4列),则可以计算它们之间的等级相关系数为1。

下面我们看一看Spearman Rank系数如何进行计算。现在有两个数据集X和Y,每个的长度是n,两个随即变量取的第i(1<=i<=n)个值分别用Xi、Yi表示。对X、Y进行排序(同时为升序或降序),得到两个元素排行集合x、y,其中元素xi、yi分别为Xi在X中的排行以及Yi在Y中的排行。将集合x、y中的元素对应相减得到一个排行差分集合d,其中di=xi-yi,1<=i<=N。随机变量X、Y之间的斯皮尔曼等级相关系数可以由x、y或者d计算得到,其计算方式如下所示:

    \[r_{s} = 1-\frac{6\sum_{i=1}^{n}d_i^2}{n(n^2-1)}\]

Python实现:

相关文档:

Pearson 相关方法和 Spearman 相关方法的比较

  • Pearson 相关评估两个连续变量之间的线性关系。当一个变量中的变化与另一个变量中的成比例变化相关时,这两个变量具有线性关系。
  • Spearman 相关评估两个连续或顺序变量之间的单调关系。在单调关系中,变量倾向于同时变化,但不一定以恒定的速率变化。Spearman 相关系数基于每个变量的秩值(而非原始数据)Spearman 相关通常用于评估与顺序变量相关的关系。

Pearson 和 Spearman 相关系数的值介于 −1 和 +1 之间。当两个变量的上升量相同时,Pearson 相关系数为 +1。该关系会构成一条完美的直线。在本例中,Spearman 相关系数也是 +1。(Pearson = +1,Spearman = +1)

如果关系是一个变量上升,其他变量也上升,但上升量不一致,则 Pearson 相关系数为小于 +1 的正数。在本例中,Spearman 系数仍等于 +1。(Pearson = +0.851,Spearman = +1)

当存在随机关系或者不存在关系时,这两个相关系数都接近零。(Pearson = −0.093,Spearman = −0.093)

如果关系对应的是一条完美的下降关系直线,则这两个相关系数都为 −1。(Pearson = −1,Spearman = −1)

如果关系是一个变量下降,其他变量上升,但变化程度不一致,则 Pearson 相关系数为大于 −1 的负数。在本例中,Spearman 系数将仍等于 −1。(Pearson = −0.799,Spearman = −1)

其他非线性关系

Pearson 相关系数只度量线性关系。Spearman 相关系数只度量单调关系。因此,即使相关系数为 0,也可能存在有意义的关系。检查散点图可确定关系的形式。(Pearson 系数和 Spearman 系数都近似 0。)

打赏作者
微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

使用Prophet进行时间序列预测

Prophet是Facebook开源的预测工具,相比ARIMA模型,Prophet真的是非常的简单。只要读入两
1 min read

采用时间序列预测股价变化

时间序列简介 在数学上,随机过程被定义为一族时间随机变量,即{x(t),t∈T},其中T表示时间t的变动范围。
5 min read

SARIMAX:季节性ARIMA

在先前的使用Python创建季节性ARIMA模型中,出现了SARIMAX模型。在上一篇的文章中并没有讲清楚SA
18 sec read

发表评论

电子邮件地址不会被公开。 必填项已用*标注