生存分析(英语:Survival analysis)是指根据试验或调查得到的数据对生物或人的生存时间进行分析和推断,研究生存时间和结局与众多影响因素间关系及其程度大小的方法,也称生存率分析或存活率分析。
比起常见的数据,生存分析的主要不同在于一种特殊的因变量。一般而言,这种因变量被称为Time to Event data,也就是某个事件发生的时间。而上述数据的特殊情况(老奶奶问题)我们称之为删失(censoring)。删失是指开始时间或结束时间没有被精准观测,从而导致数据不完备的情况。例如在上述情况中,我们只知道$T_i>3$,而不知道 $T_i$ 的具体数字。总之,生存分析主要关注于处理一种特殊的时间数据,并且时间数据可能带有部分删失属性。事实上这种数据是很常见的,最多的被应用在医药分析领域,甚至需要药品说明书上都有生存分析的影子。而删失情况就更为常见了,在临床观察过程中,不可能每天都仔细地盯住患者,这会耗费大量人力物力,而人作为有思想的独立个体,多多少少可能导致中途退出药物实验等情况,这些都会导致删失。
上表就是我们经常分析的生存数据(Survival Data)。我们一般将其表示成 $\{t_i, \delta _i, x_i\}_{i=1}^n$。其中:
- $t_i$代表了跟进时间(following-up time),是生存时间T_i与删失时间C_i的较小值
- $\delta _i $代表了状态(status),$if t_i=T_i, \delta _i =1; ift_i=C_,i \delta _i =0.$
- $x_i$代表了协变量(covariates),包括感兴趣的其他变量(如身高血压肺活量……)
- 起始事件(initial event):反应生存时间起始特征的事件,如疾病确诊、某种疾病治疗开始等。
- 失效事件(failure event):常被简称为事件,研究者规定的终点结局,医学研究中可以是患者死亡,也可以是疾病的发生、某种治疗的反应、疾病的复发等。在生存分析随访研究过程中,一部分研究对象可观察到死亡,可以得到准确的生存时间,它提供的信息是完全的,这种事件称为失效事件,也称之为死亡事件、终点事件。
- 服药→痊愈
- 手术切除→死亡
- 染毒→死亡
- 化疗→缓解
- 缓解→复发
- …
- 分布类型不易确定。一般不服从正态分布,多数情况下不服从任何规则的分布类型。
- 影响因素多而复杂且不易控制。
- 根据研究对象的结局,生存时间数据可分为两种类型:
- 完全数据(Completed Data):从观察起点到发生死亡事件所经历的时间。
- 不完全数据(Incomplete Data):生存时间观察过程的截止不是由于死亡事件,而是由其他原因引起的。
- 不完全数据分为:删失数据(censored Data)和截尾数据(truncated Data)。
- 不完全主要原因:
- 失访:指失去联系;
- 退出:死于非研究因素或非处理因素而退出研究;
- 终止:设计时规定的时间已到而终止观察,但研究对象仍然存活。
- 删失分类:
- 左删失(left censored):研究对象在某一时刻开始接受观察,但是在该时间点之前,研究所感兴趣的事件已经发生,无法明确具体时间。
- 右删失(right censored):在进行随访观察中,研究对象观察的起始时间已知,但终点事件发生的时间未知,无法获取具体的生存时间,只知道生存时间大于观察时间。
- 区间删失(interval censored):在实际的研究中,如果不能够进行连续的观察随访,只能预先设定观察时间点,研究人员仅能知道每个研究对象在两次随访区间内是否发生终点事件,而不知道准确的发生时间。
- 截尾是所有样本的综合特性,指的是观察的总体是有偏的,只有当事件的失效时间出现在观测区间内,我们才能知道这个事件及其观测数据的存在。
- 左截尾(left truncation):只能观测到一个时间点之后发生的失效事件。左截尾时间点之前发生的失效事件不知情/不关心(如样本来自退休中心,都是>60岁的老人)。
- 右截尾(right truncation):只能观测到一个时间点之前发生的失效事件。右截尾时间点之后发生的失效事件不知情/不关心
生存函数(Survival Function)与风险函数(Hazard Function)
生存函数也称为积累生存函数/概率(Cumulative Survival Function)或生存率,符号S(t),表示观察对象生存时间越过时间点t的概率,t=0时生存函数取值为1,随时间延长生存函数逐渐减小。以生存时间为横轴、生存函数为纵轴连成的曲线即为生存曲线。
风险函数表示生存时间达到t后瞬时发生失效事件的概率,用h(t)表示,h(t)=f(t)/S(t)。其中f(t)为概率密度函数(Probability Density Function),f(t)是F(t)的导数。F(t)为积累分布函数(Cumulative Distribution Function),F(t)=1-S(t),表示生存时间未超过时间点t的概率。累积风险函数H(t)=-logS(t)。
- 若含有删失数据,须分时段计算生存概率。假定观察对象在各个时段的生存时间独立,应用概率乘法定理将分时段的概率相乘得到生存率。
- 生存率与条件生存概率不同。条件生存概率是单个时段的结果,而生存率实质上是累积条件生存概率(cumulative probability of survival ),是多个时段的累积结果。例如,3 年生存率是第1 年存活,第2 年也存活,第3 年还存活的可能性。
- 生存率s(t)的估计方法有参数法和非参数法。常用非参数法,非参数法主要有二个,即,乘积极限法与寿命表法,乘积极限法主要用于观察例数较少而未分组的生存资料,寿命表法适用于观察例数较多而分组的资料,不同的分组寿命表法的计算结果亦会不同,当分组资料中每一个分组区间中最多只有1个观察值时,寿命表法的计算结果与乘积极限法完全相同。
- 生存曲线(survival curve):以观察(随访)时间为横轴,以生存率为纵轴,将各个时间点所对应的生存率连接在一起的曲线图。生存曲线是一条下降的曲线,分析时应注意曲线的高度和下降的坡度。平缓的生存曲线表示高生
- 中位生存时间(Median Survival Time)/平均生存时间(Mean Survival Time):中位生存时间又称半数生存期,表示恰好一半个体未发生失效事件的时间,生存曲线上纵轴50%对应的时间。平均生存时间则表示生存曲线下的面积。
- 研究某病治疗后的复发情况,复发就是“死亡”,未复发就是“生存”。只要有复发的结局(是否复发)以及从治疗后到复发的时间,就可以用生存分析。
- 研究工作后升迁的因素有哪些,升迁就是“死亡”,未升迁就是“生存”。只要有升迁的结局(是否升迁)以及从开始工作到升迁的时间,就可以用生存分析。
- 研究戒烟后复吸的因素,复吸就是“死亡”,未复吸就是“生存”。只要有复吸的结局(是否复吸)以及从戒烟工作到复吸的时间,就可以用生存分析。
在互联网数据挖掘中,例如用survival analysis去预测信息在社交网络的传播程度,或者去预测用户流失的概率。
- 组间比较:t检验、方差分析
- 多因素分析:线性回归
- 组间比较:卡方检验
- 多因素分析:logistic回归
- 组间比较:Kaplan-Meier
- 多因素分析:Cox回归
- 生存概率,即 Survival probability,指的是研究对象从试验开始直到某个特定时间点仍然存活的概率,可见它是一个对时间t的函数,我们定义之为 S(t);
- 风险概率,即 Hazard probability ,指的是研究对象从试验开始到某个特定时间 t 之前存活,但在 t 时间点发生观测事件如死亡的概率,它也是对时间 t 的函数,定义为 H(t)。
接下来要讲的 Kaplan-Meier 方法主要关注 S(t),而后面讲到的 Cox 风险比例模型则关注 H(t)。
Kaplan Meier,是一种单因素生存分析。它可用于研究1个因素对于生存时间的影响,在医疗领域中使用广泛。
Kaplan–Meier 方法,该方法是由 Kaplan 和 Meier 与 1958 年共同提出的,为理解方法的细节,我们先看下一张表(原文链接)。本例中我们以死亡作为观测事件,这张表也叫做 life table.
- A 列是从试验开始起,持续的观测时间,星号代表在该时间有删失数据发生;
- B 列是指在 A 列对应的时间开始之前所有存活的研究对象个数,也可以叫做 at risk 的人数,表示当前具有死亡风险的有效人群,是排除了已经死亡和删失的数据之后剩余的人数;
- C 列为恰好在 A 列对应的时间死亡的人数,
- D 列即表明在该时间点删失的个数。第一行则可以解读为,在909 年这个时间点之前,本来有 10 个患者,在 0.909 这个时间点(或其之后的一小段时间区间)死亡了一个人,没有删失数据,意味着还剩 9 人;随后,只要有新增死亡或删失数据,则在表中新建一行,记录时间和人数。
我们先不引入 Kaplan–Meier 公式,大家可以先尝试自己去思考下如何计算每个时间节点的生存概率,即 S(t)。比如在 1.536 年这个时间点,即表中的第五行,病人在该点的生存概率是多少呢?很容易可以想到,要想在 1.536 这个时间点存活,他/她必须在 1.536 之前的所有时间点存活才行,也就是说在 0.909、1.112、1.322、1.328 这几个时间点,病人都必须存活。那么在 1.536 这个时间点的生存概率 P 实际上就等于在包括 1.536 在内的所有之前的时间点都不死亡的概率乘积,即:
P(存活至1.536) = P(0.909时不死亡) * P(1.112时不死亡) * P(1.322时不死亡) * P(1.328时不死亡) * P(1.536时不死亡)
对于某个特定时间点不死亡的概率,可以用 1 – 死亡概率 来估算,举个例子:
P(0.909时不死亡) = 1 – P(0.909时死亡) = 1 – (0.909时死亡的人数)/(0.909之前的所有人数) = 1 – 1/10 = 0.9 P(1.112时不死亡) = 1 – P(1.112时死亡) = 1 – (1.112时死亡的人数)/(1.112之前的所有人数) = 1 – 1/9 = 0.89
P(1.322时不死亡) = 1 – P(1.322时死亡) = 1 – (1.322时死亡的人数)/(1.322之前的所有人数) = 1 – 0/9 = 1
该表中 E 列即不死亡概率,F 列则表示累积的生存概率,可以看到随着时间增加,死亡人数增多,越到后期,生存概率越低,这是符合常理的。另外需要注意,在删失发生时,生存概率时没有变化的。
其实我们刚才的思路就是 Kaplan–Meier 方法的主要思路,基于刚才的表格,我们也可以用数学公式来表示。一共有 m 个时间点,每个时间点用下标 i 来表示, i 为从 1 到 m 的整数, 生存概率 $S(t_i)$ 可以表示为:
其中,$t_i $表示第i个时间点,$n_i$表示在$t_i$之前的有效人数,$d_i$表示在$t_i$死亡的人数,$S(t_{i-1})$表示在上一个时间点 i-1 的生存概率。
根据这一公式,我们可以画图来展示生存率的变化情况,即 Kaplan-Meier 生存曲线,如下图所示:
图中横轴即时间轴,纵轴是累积存活比例,也就是生存概率,加号表示删失数据。一般来说,生存分析是要比较不同组之间的一个生存情况,因此 Kaplan-Meier 生存曲线一般不止一条曲线,如下图所示:
最直观的是来统计中位生存时间,即生存率在 50% 时所对应的生存时间,如下图所示:
不同组别对应的中位生存时间不同,可以一定程度上反应出不同组别死亡风险的不同。如果想比较整体生存时间分布是否存在统计学差异,一般我们可以采用 Logrank 统计方法来对生存数据进行统计分析。
Logrank 方法是由 Nathan Mantel 最初提出的,它是一种非参数检验,中文翻译为对数秩检验,主要用来比较两组样本的生存时间分布的差异。Logrank 实际计算形式可能有不同的变体,我们这里介绍一种版本,实际上是卡方检验的一种应用场景。Logrank 检验的零假设是指两组的生存时间分布完全一致,当我们通过计算拒绝零假设时,就可以认为两组的生存时间分布存在统计学差异。我们可以通过以下公式计算某组病人在某个时间点的期望死亡人数:
$$E_{1t} = N_{1t}*(O_t/N_t)$$
- $E_{1t}$是指第一组中,在时刻 t,期望死亡人数;
- $N_{1t}$指第一组中 t 时刻 at risk的人数,即 t 之前的存活人数;
- $O_t$则指两组(第一组和第二组)总的观测到的实际死亡人数;
- $N_t$指两组总的 at risk 的人数,或 t 时间之前两组的总人数。
如果你认真观察了公式,你就会觉得它其实浅显易懂,因为两组生存概率分布一致,因此两组总的 at risk 人数和两组总的死亡人数的比例,应该和单组的 at risk 人数和总死亡人数的比例是一致的,这也就是为什么通过两组总的比例和其中一组总的 at risk 的人数,就可以得到这一组期望死亡的人数,也就是上面公式所讲的内容。
$$\chi^2=\sum \frac{(\sum O_{j t}-\sum E_{jt})^2}{\sum E_{jt}}$$
在该公式中,外层的$\sum$是对不同组的一个叠加,内层的三个$\sum$都是对不同时间点的叠加;j 代表的是第 j 组,比如服药组和对照组就可以分别对应 j=1 和 j=2 ;这里分子上的$\sum O_{jt}$是指在 j 组所有时间点的观测死亡人数相加之和,是对不同时间点 t 对应的观测值的一个累加,比如 t 分别对应 1 天、2 天、3 天等等;$\sum E_{jt}$是指在 j 组所有时间点期望死亡人数相加之和。观测人数和期望人数的差值,就代表了实际情况与我们假设情况是否一致,如果假设是对的,即不同组的生存时间分布是完全一致的,那么观测人数和期望人数的差值会是非常小的。因为差值有正有负,所以对它取平方,这样就不会出现抵消的情况。另外,由于 100 和 120 之间相差的 20,和 1000 和 1020 之间相差的 20,情况并不完全一样,100 和 120 之间的 20 占比达到 20%,而 1000 和 1020 之间相差的 20 占比只达到了 2%,为了让这两种情况可比较,再加一个分母即 $\sum E_{jt}$,相当于转换成百分比;最后把不同组别得到的值加起来,就得到 X2 值。通过查表可根据$\chi^2$值来判断是否需要拒绝零假设。
除 Logrank 检验之外,一种生存时间分布的常用检验包括 Breslow 检验,其实也就是 Wilcoxon 检验,与 Logrank 不同的是,在每个时间点统计观测人数和期望人数时,他会给它们乘以一个权重因子,即当前时间点的 at risk 的总人数,然后再把所有时间点加起来去统计卡方值。可以想象随着时间点越靠后,at risk 的总人数会越小,因此权重越少,对 X2 值的贡献就越小。因此 Breslow 检验对试验前期的差异要更加敏感,而相对来说 Logrank 对后期相对更敏感一些,因为它的所有时间点的权重参数都是1。在实际使用中,我们可以使用不同的方法从多个角度对数据去进行探究。
说到这里,Kaplan–Meier 的多数知识我们已经覆盖到了。但还有一个方面可能会引起同学们的注意,如下图所示:
大家可能会问,上图中生存曲线周围的浅色区间是什么?实际上,上图中生存曲线周围的浅色区间即其对应的 95% 置信区间。首先我们需要理解为什么每个节点的生存概率会存在置信区间,因为我们假设每个时间点的生存概率是符合一种特定的分布,那么每次观测到某个时间点的结果就相当于是一次随机抽样,因为我们已经知道了生存概率对于时间 t 的函数 S(t),通过估算标准误,我们就可以估算出某个时间点的误差范围 (Margin of Error) ,从而得到一个特定概率的置信区间。
针对生存概率分布数据的置信区间估计,一种基于 Greenwood 提出的公式为:
$$\begin{aligned}&\widehat{S}(t) \pm z_{\alpha / 2} \sqrt{\widehat{\operatorname{Var}}[\widehat{S}(t)]} \quad \text { where } \\ &\widehat{\operatorname{Var}}[\widehat{S}(t)]=\widehat{S}(t)^2 \sum_{t_i \leq t} \frac{d_i}{n_i(n_i-d_i)} \end{aligned}$$
其中 S(t) 即为生存概率函数,是我们之前解释过的不死亡概率的累计乘积。$z_{\alpha/2}$是 正态分布的$\alpha /2-th$分位数,可以查表得到。
除了上面公式提到的置信区间计算方法,还有一种指数型 Greenwood 公式,可以解决之前计算的置信区间可能不在 (0,1) 区间的问题,两个公式的具体内容和推导都可以参考链接.
到目前为止,我们已经讲了生存分析的基础知识,包括生存分析应用场景、删失数据说明、生存概率和风险概率、Kaplan–Meier 曲线、LogRank 和 Breslow 检验以及置信区间估计。但我们以上讲解的内容都是只针对单变量的,也就是说 Kaplan-Meier、LogRank 只能针对单一的变量进行分析,要么按性别分组,要么按不同药物分组,但无法同时考察多个因素,或对某些可能有影响的因素进行调整。比如我们要考察新冠病毒在湖北省内外的预后差异,假设我们不知道任何其他信息,但有理由怀疑湖北省和其他省份的人口成分可能存在差异,比如湖北省老人更多、儿童更多(假设),那我们就不能直接简单的拿湖北的病例和其他省的病例去比较,必须同时考虑年龄、性别的影响,也就是说要对年龄、性别做出调整,这是之前用 LogRank无法做到的,此时 Cox 比例风险回归模型就要闪亮登场了。
- LogRank检验各时点的权重均为“1”。就是不考虑各观察时点开始时存活的人数对统计模型的影响。也就是每个时点死亡情况的变化对整个模型的贡献是一样的。
- Breslow检验则在Log Rank检验的基础上增加了权重,并设置权重为各时点开始时存活的人数。也就是开始存活人数多的时点死亡情况的变化对整个模型的贡献较大,而开始存活人数少的时点死亡情况的变化对整个模型的贡献较小。
- Tarone-Ware检验是权重的取值方法介于以上两种方法之间,设置权重为各时点开始时存活的人数的平方根。同样是开始存活人数多的时点死亡情况的变化对整个模型的贡献较大,而开始存活人数少的时点死亡情况的变化对整个模型的贡献较小。只是开始存活人数多的时点对整个模型的贡献不如Breslow检验大。
上面都看不懂?没关系,我们都知道在生存分析里随着观察时间或随访时间的推移,观察时点开始时尚存活的人数会越来越少。因此,相对而言,Breslow检验研究开始时(开始存活人数多)组间差异对卡方值的影响更大,而Log Rank检验相对Breslow检验和Tarone-Ware检验,则研究后期组间差异对卡方值影响更大。也就是说,一开始粘在一起随时间推移越来越开的生存曲线Log Rank检验要比Breslow检验更容易得到差异有统计学意义的结果;而开始相差较大,随着时间推移越来越接近的生存曲线则是Breslow检验比Log Rank检验更容易得到差异有统计学意义的结果。
下面我们讲解 Cox 比例风险回归模型,英文名叫 Proportional Hazards Regression analysis 或 Cox Proportional-Hazards Model, 是由 Cox 于 1972 年提出的。我们这里简称其为 Cox 模型。
Cox 模型是一种半参数模型,因为它的公式中既包括参数模型又包括非参数模型。简单说下参数模型和非参数模型的相同与区别。相同点是它们都是用来描述某种数据分布情况的;不同点在于,参数模型的参数是有限维度的,即有限个参数就可以表示模型分布,比如正态分布里的均值和标准差;而非参数模型的参数则属于某个无限维的空间,无法用有限参数来表示,不同的数据会得到不同的分布估计,比如决策树、随机森林等等,我们无法用有限的参数来表示所有可能的分布情况。来看看 Cox 模型的公式就知道为什么 Cox 模型是一种半参数模型了。
$$h(t)=h_0(t)\times \exp(b_1x_1+b_2x_2+…+b_px_p)$$
其中 t 是生存时间,$x_1$, $x_2$到$x_p$指的是具有预测效应的多个变量,$b_1$,$b_2$到$b_p$则是每个变量对应的 effect size 即效应量,可以理解为结果的影响程度,后面会解释。$h(t)$就是不同时间 t 的 hazard,即风险值。而$h_0(t)$是基准风险函数,也就是说在其他协变量$x_1, x_2, …, x_p$都为 0 时,即不起作用时,衡量风险值的函数。根据公式我们可以看到指数部分是参数模型,因为其参数个数有限,即$b_1$, $b_2$到$b_p$,而基准风险函数$h_0(t)$由于其未确定性,可根据不同数据来使用不同的分布模型,因此是非参数模型。所以说, Cox 模型是一种半参数模型。
一个需要注意的地方在于,并不是所有的生存分析数据都可以用 Cox 模型来分析,它是需要满足一定的假设的,大家可以带着这个疑问继续阅读,我们在文章最后对此会进行讨论。
现在我们知道了风险函数$h(t)$的公式,先解读一下这个公式。h(t) 首先是基于时间变化的,t 是自变量;对于某个病人,不同时间的死亡风险是不一样的,这非常好理解,肿瘤病人肯定是随着病程的进展,复发率、死亡率都会不断提高。我们可以回忆以下之前做 Kaplan-Meier 的那个表格,在最后的时间点生存率也越来越低,意味着风险越来越高。其次除了时间,不同年龄、性别、血压等指征不同的病人,死亡风险也不一样。比如这次的新冠病毒 Covid-19,年纪越大致死率越高,这也就是为什么 Cox 模型要把诸多可能影响生存率的因素都当作协变量引入到公式中去,在该公式中即$x_1, x_2, …, x_p$。我们的主要目标是通过一定方法来找到合适的$h_0(t)$,以及所有协变量的系数$b_1, b_2, …, b_p$。实际上cox 模型是需要用到极大似然估计等计算方法,首先构建特定的似然函数,通过梯度下降等方法来求解模型的参数,使得函数求解值最大。
假设我们已经通过计算得到了合适的$h_0(t)$和协变量系数,如何去解读结果呢?我们可以比较某个协变量$x_1$在不同值时对应的不同风险比(hazard ratio),这里比较$x_1$和$x_1+1$,即若$x_1$增加 1 个单位,增加前后的风险比是:
$$\text{hazard ratio}=\frac{h_0(t)*\exp(b_1(x_1+1)+b_2x_2+…+b_px_p)}{b_0(t)*\exp(b_1x_1+b_2x_2+…+b_px_p)} = \frac{\exp(b_1(x_1+1)+b_2x_2+…+b_px_p}{\exp(b_1x_1+b_2x_2+…+b_px_p)}=\exp(b_1)$$
上式中,我们对$x_1+1$和$x_1$这两个不同的值对应的风险比进行了计算,通过化简可知$x_1+1$和$x_1$ 对应的风险比实际上等于$\exp(b_1)$,也就是 e 的 $b_1 $次方;简单的讲,假如$x_1 $指的是年龄,那么对于年龄 51岁 (x+1) 和年龄 50 岁 (x) 的人,可能死亡的风险比为$exp(b_1)$。
- 如果$b_1>0$,则 $\exp(b_1)>1$,意味着年龄 +1,死亡风险增加;
- 如果$b_1<0$, 则 $\exp(b_1)<1$,意味着年龄 +1,死亡风险降低;
- 如果$b_1=0$,则 $\exp(b_1)=1$,意味着年龄变化对死亡风险不起作用。
可以看到该表格中,一些风险因子包括年龄、性别、血压(收缩压)、是否抽烟、血清总胆固醇以及是否患有糖尿病,经过 Cox 模型计算,得到各个风险因子的参数估计,如年龄对应的参数为 0.11691,也就是之前公式中的系数为 0.11691,大于 0 表示年龄增加会增加风险,风险比 (hazard ratio) 为 exp(0.11691) = 1.124 ,即表格最后一列,该数值大于 1,同样表明年龄增加会导致风险增加。对于二分类变量,即只有 0 和 1,比如男性为 1,女性为 0,这样的变量与连续变量在 Cox 模型中的结果解读是一致的,如果性别对应的协变量系数大于 0,表明性别值越高风险越大,也就是说男性的风险高与女性。除了关注系数外,同时需要关注的是 p value,即该参数估计是否具有统计学显著性,常用来统计的方法是 Likelihood ratio test,同时也有使用 Wald test, 和 score logrank statistics。简单介绍一下 Likelihood ratio test,中文名叫似然比检验,核心思想是:为了判断都某个新变量的引入是否对于模型有效,比较变量加入前和加入后,似然函数最大值的比较,如果没有出现最大值的降低,那么则可能对模型有效,进而统计其显著性。
我们之前提到过,使用 Cox 模型是需要满足一定的条件的。相信大家看到这里应该已经有了答案,最重要的一个假设条件是:任意两人的风险比例是不随事件变化的,这也是为什么 Cox 模型全名叫 Cox 比例风险回归模型。举例来说,如果某个人的死亡风险比另一个人高两倍,那么不论什么时候,这个人的死亡风险都是另一个人的两倍。这样的假设我们可以从之前的公式中看到,hazard ratio 推导的结果是不包括时间 t 的。这是 Cox 模型可用的一个基本假设。实际情况并非一定如此,对吧?因此我们在做 Cox 模型之前,最好对数据进行一个解读,看看是否满足当前假设。既然不同人之间的风险比例固定,那么一个最简单的例子就是任意分组情况下,两组的 Kaplan–Meier 曲线不应该相交叉,如果曲线相交叉,说明两组的生存概率关系随事件发生了变化,亦即风险比随时间发生变化,与假设相悖。然而,在实际应用中,由于样本量较小时,生存曲线会引入较大的误差,因此该判断方法有可能失效。一个更加复杂的方法为 complementary log-log plot,即横轴为$\ln(t)$,纵轴为$\ln (-\ln (S(t)))$。经过推导:
$$\begin{aligned} h(t) &=h_0(t) \exp (\beta X) \\ H(t) &=H 0(t) \exp (\beta X) \\ \log H(t) &=\log H_0(t)+\beta X \\ \log [-\log S(t)] &=\log [-\log S_0(t)] + \beta X \end{aligned} $$
我们可知,不同组中,$\log(-\log(S(t)))$ 对于 t的曲线,只有$\beta X $不同,而其与时间 t 无关,所以两条曲线应该近似平行或等距。
除了画生存曲线观察数据之外,我们还可以通过 Schoenfeld 残差来检查风险是否成比例。以及检验变量与时间的交互来作用来衡量风险比例是否固定,这里不做展开。对于不符合固定风险比例的数据,可以使用时依协变量或分层Cox模型来计算。
对于 生存分析 ,除了 Cox 模型外,还有一些其他可用的参数模型。与 Cox 模型不同,这些参数模型往往给定了可能的风险函数分布,比如 指数分布、Weibull 和 Gompertz 分布,然后进一步去估计对应的模型参数。如下图所示,a 为指数分布,其 hazard ratio 为恒定值,在实际中很少应用;b 为 Weibull 分布,可通过不同的参数调整分布的走向;c 为 Gompertz 分布。相对于 Cox 模型,使用这些模型的优点在于分布曲线可根据参数推断,可得到更多信息,比如:前期死亡率高后期死亡率低,也就是说可以得到更多关于风险分布的信息,而 Cox 模型只能得到有限信息,如风险比及其显著性。使用这些全参数模型的缺点也是明显的,即固定的分布不一定能满足实际的数据情况,可能带来更多的误差。再实际使用情况中,可根据不同情况进行选择。
- Python版本:官方说是7~3.7,实际上的3.8也可以。但是超过3.8就会存在问题
- Windows上安装一直不成功。所以在WLS中进行的安装
PySurvival 内部自带了一个数据集,我们就是用内部数据来分析。自带的数据来自一家Saas服务公司的客户数据,该公司的主要商业模式是每月收费。
import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split from pysurvival.datasets import Dataset from pysurvival.utils.display import correlation_matrix, compare_to_actual, integrated_brier_score, create_risk_groups from pysurvival.utils.metrics import concordance_index from pysurvival.models.survival_forest import ConditionalSurvivalForestModel import warnings warnings.filterwarnings("ignore") pd.set_option("display.precision",2) np.set_printoptions(precision=2, suppress=True) pd.options.display.float_format = '{:,.0f}'.format
df0 = Dataset("churn").load() df0.tail()
<class 'pandas.core.frame.DataFrame'> RangeIndex: 2000 entries, 0 to 1999 Data columns (total 14 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 product_data_storage 2000 non-null int64 1 product_travel_expense 2000 non-null object 2 product_payroll 2000 non-null object 3 product_accounting 2000 non-null object 4 csat_score 2000 non-null int64 5 articles_viewed 2000 non-null int64 6 smartphone_notifications_viewed 2000 non-null int64 7 marketing_emails_clicked 2000 non-null int64 8 social_media_ads_viewed 2000 non-null int64 9 minutes_customer_support 2000 non-null float64 10 company_size 2000 non-null object 11 us_region 2000 non-null object 12 months_active 2000 non-null float64 13 churned 2000 non-null float64 dtypes: float64(3), int64(6), object(5) memory usage: 218.9+ KB
数据由 13 列组成,其中 5 列是分类变量。Pandas 的 info() 函数显示数据框不包含空值。
特征类别 | 特征名称 | 类型 | 描述 |
Time | months_active | numerical | Number of months since the customer started his/her subscription |
Event | churned | categorical | Specifies if the customer stopped doing business with the company |
Products | product_data_storage | numerical | Amount of cloud data storage purchased in Gigabytes |
Products | product_travel_expense | categorical | Indicates if the customer is actively using and paying for the Travel and Expense management services or not. (‘Active’, ‘Free-Trial’, ‘No’) |
Products | product_payroll | categorical | Indicates if the customer is actively using and paying for the Payroll management services or not. (‘Active’, ‘Free-Trial’, ‘No’) |
Products | product_accounting | categorical | Indicates if the customer is actively using and paying for the Accounting services or not. (‘Active’, ‘Free-Trial’, ‘No’) |
Satisfaction | csat_score | numerical | Customer Satisfaction Score (CSAT) is the measure of how products and services supplied by the company meet customer expectations. |
Satisfaction | minutes_customer_support | numerical | Minutes the customer spent on the phone with the company customer support |
Marketing | articles_viewed | numerical | Number of articles the customer viewed on the company website. |
Marketing | smartphone_notifications_viewed | numerical | Number of smartphone notifications the customer viewed |
Marketing | marketing_emails_clicked | numerical | Number of marketing emails the customer opened on |
Marketing | social_media_ads_viewed | numerical | Number of social media ads the customer viewed |
Customer information | company_size | categorical | Size of the company |
Customer information | us_region | categorical | Region of the US where the customer’s headquarter is located |
- “churned”,用于识别过去未续订的客户
- “months_active”,它添加了一个时间维度,我们希望沿着该维度跟踪客户流失风险
def plot_nums(df): numcols = list(df.dtypes[df.dtypes != np.object].index) for col in numcols: fig, ((ax1, ax2)) = plt.subplots(1, 2, figsize=(15, 4)) x = df[numcols].values ax1.boxplot(x) ax1.set_title("{}".format(col)) ax2.hist(x, bins=20) ax2.set_title("{}".format(col)) plt.show() plot_nums(df0)
# backup the original data before modifications df1 = df0.copy() # create numerical columns from categories via one-hot encoding catcols = list(df1.dtypes[df1.dtypes == np.object].index) df1 = pd.get_dummies(df1, columns=catcols, drop_first=True) df1.info() <class 'pandas.core.frame.DataFrame'> RangeIndex: 2000 entries, 0 to 1999 Data columns (total 27 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 product_data_storage 2000 non-null int64 1 csat_score 2000 non-null int64 2 articles_viewed 2000 non-null int64 3 smartphone_notifications_viewed 2000 non-null int64 4 marketing_emails_clicked 2000 non-null int64 5 social_media_ads_viewed 2000 non-null int64 6 minutes_customer_support 2000 non-null float64 7 months_active 2000 non-null float64 8 churned 2000 non-null float64 9 product_travel_expense_Free-Trial 2000 non-null uint8 10 product_travel_expense_No 2000 non-null uint8 11 product_payroll_Free-Trial 2000 non-null uint8 12 product_payroll_No 2000 non-null uint8 13 product_accounting_Free-Trial 2000 non-null uint8 14 product_accounting_No 2000 non-null uint8 15 company_size_10-50 2000 non-null uint8 16 company_size_100-250 2000 non-null uint8 17 company_size_50-100 2000 non-null uint8 18 company_size_self-employed 2000 non-null uint8 19 us_region_East South Central 2000 non-null uint8 20 us_region_Middle Atlantic 2000 non-null uint8 21 us_region_Mountain 2000 non-null uint8 22 us_region_New England 2000 non-null uint8 23 us_region_Pacific 2000 non-null uint8 24 us_region_South Atlantic 2000 non-null uint8 25 us_region_West North Central 2000 non-null uint8 26 us_region_West South Central 2000 non-null uint8 dtypes: float64(3), int64(6), uint8(18) memory usage: 175.9 KB
df1.select_dtypes(exclude="object").nunique() product_data_storage 6 csat_score 6 articles_viewed 13 smartphone_notifications_viewed 4 marketing_emails_clicked 20 social_media_ads_viewed 3 minutes_customer_support 217 months_active 13 churned 2 product_travel_expense_Free-Trial 2 product_travel_expense_No 2 product_payroll_Free-Trial 2 product_payroll_No 2 product_accounting_Free-Trial 2 product_accounting_No 2 company_size_10-50 2 company_size_100-250 2 company_size_50-100 2 company_size_self-employed 2 us_region_East South Central 2 us_region_Middle Atlantic 2 us_region_Mountain 2 us_region_New England 2 us_region_Pacific 2 us_region_South Atlantic 2 us_region_West North Central 2 us_region_West South Central 2 dtype: int64
- “事件”——在我们的示例中,“churned”= 1 或 0
- 时间维度:“months_active”
然后第 6 行中的 numpy 函数setdiff1d()从所有列名列表中删除“churned”和“months_active”,留下特征列列表。
# target variables: months_active and churns time_column = 'months_active' event_column = 'churned' # list of feature columns: excluding the target columns features = np.setdiff1d(df1.columns, [time_column, event_column]).tolist() X = df1[features] X.tail()
在 PySurvival自带的函数中,我们找到了相关矩阵。它显示了特征的对齐程度。如果任何一对表现出惊人的高相关性,接近 1.0,我们应该删除其中一个以处理它们的多重共线性。在我们的例子中,中型和大型客户公司之间的最高相关性没有超过 0.52。这不是一个惊人的水平,所以我们继续我们的分析。
# correlation matrix of the features correlation_matrix(df1[features], figure_size=(30,15), text_fontsize=10)
# sklearn: train vs test split N = df1.shape[0] idx_train, idx_test = train_test_split(range(N), test_size = 0.35) df_train = df1.loc[idx_train].reset_index(drop = True) df_test = df1.loc[idx_test].reset_index(drop = True) # features, times (months active), and churn events: isolate the X, T and E variables X_train, X_test = df_train[features], df_test[features] T_train, T_test = df_train[time_column], df_test[time_column] # when did the Churn event occur? E_train, E_test = df_train[event_column], df_test[event_column] # vdid the Churn event occur?
- 传统的回归模型对两个数据数组 X 和 y 进行操作:回归量 X 和目标向量 y。
- 而生存模型对三个变量 X、E 和 T 进行操作:
- 特征数组 X(由代表属性或客户资料的列组成)
- 二进制事件指示符向量 E(1 或 0),表示是否已为客户记录流失事件;
- 时间向量 T = min(t, c),其中 t 表示事件时间,c 表示审查时间
生存模型预测感兴趣的事件在时间 t 发生的概率。
# fitting a survival forest model model = ConditionalSurvivalForestModel(num_trees=200) model.fit( X_train, T_train, E_train, max_features="sqrt", # number of features randomly chosen at each split (int, float, "sqrt", "log2", or "all") max_depth=5, # min_node_size=20, # minimum number of samples at leaf node alpha=0.05, # significance threshold to allow splitting seed=42, # seed for random variable generator sample_size_pct=0.63, # % of original samples used in each tree building num_threads=-1 # number of jobs to run; if -1, then all available cores will be used )
C-index,英文名全称concordance index,中文里有人翻译成一致性指数,最早是由范德堡大学(Vanderbilt University)生物统计教教授Frank E Harrell Jr 1996年提出,主要用于计算生存分析中的COX模型预测值与真实之间的区分度(discrimination),和大家熟悉的AUC其实是差不多的;在评价肿瘤患者预后模型的预测精度中用的比较多。
- 在50-0.70为准确度较低
- 在71-0.90之间为准确度中等
- 高于90则为高准确度
Brier Score (mean squared error)跟L2 loss 很像。
$$BS=\frac{1}{N} \sum_{t=1}^N (\hat{y}_t-y_t)^2$$
$$L2loss= \sum_{t=1}^N (\hat{y}_t-y_t)^2$$
Brier Score 的出来的范围 是 [0,1] 之间,然后Brier Score 越小则模型准确率越高。
因为 BS(t) 是只考虑在 时间点 t 的时候 BS 是多少,但是生存概率是一个 时间范围内,如果我们想知道整个时间段的生存概率是否正确,我们可以用IBS
当我们只考虑 uncensor 病人,也就是有event的病人:
$$IBS (\tau, V_U, \hat{S}(\cdot \mid \cdot))=\frac{1}{\tau} \int_0^\tau B S_t (V_U, \hat{S}(t \mid \cdot))dt$$
# testing: model quality - prediction error measures by concordance index and Brier score ci = concordance_index(model, X_test, T_test, E_test) print("concordance index: {:.2f}".format(ci)) ibs = integrated_brier_score(model, X_test, T_test, E_test, t_max=12, figure_size=(15,5)) print("integrated Brier score: {:.2f}".format(ibs))
- concordance index: 0.83
- integrated Brier score: 0.14
PySurvival 的compare_to_actual 方法沿时间轴绘制风险客户的预测和实际数量。它还计算三个准确度指标,RMSE、MAE 和中值绝对误差。在内部,它计算 Kaplan-Meier 估计量以确定源数据的实际生存函数。
# testing: model quality - actual vs predicted churn events res = compare_to_actual( model, X_test, T_test, E_test, is_at_risk = False, # True: return the expected number of customers at risk figure_size=(16, 6), metrics = ["rmse", "mean", "median"]) # root mean square error, mean abs error, median abs error print("accuracy metrics:") _ = [print(k,":",f'{v:.2f}') for k,v in res.items()]
accuracy metrics: root_mean_squared_error : 12.11 median_absolute_error : 3.45 mean_absolute_error : 7.80
“pct_importance”列标识在 0 到 1 的范围内校准相对重要性。相对重要性加起来为 1.0。
- csat_score——通过营销调查衡量的客户满意度得分——与客户流失风险密切相关。
- product_payroll_No和product_accounting_No,不清楚这整个维度具体什么意思。
- minutes_customer_support表示那些在取消订阅之前经常向支持热线投诉的客户存在高流失风险。
# model results: variable importance # positive: increase the risk; negative: alleviate the risk pd.options.display.float_format = '{:,.3f}'.format model.variable_importance_table
如果我们将时间变量 t 设置为 None,那么 PySurvival 将计算数据帧中所有时间段的函数值并显示它们的趋势——在我们的示例中长达 12 个月。
# survival function, hazard function and risk score for a randomly drawn individual k = np.random.choice(df1.index) # t = number of time periods for which to show the probabilities # if t = None, then t = maximum number of "months active" in dataset svf = model.predict_survival(X.values[k,:], t=None) # survival function over time hzf = model.predict_hazard(X.values[k,:], t=None) # hazard function over time risk = model.predict_risk(X.values[k,:]) # risk score (scalar) df_risk = pd.DataFrame() df_risk["svf"] = svf.flatten().tolist() df_risk["hzf"] = hzf.flatten().tolist() df_risk.insert(2, "risk", risk.item()) print("risk score, and survival and hazard functions over time, for customer", k, ":") df_risk
# compute every customer's survival function and risk score for 4 chosen periods (active months) T = [1,3,6,12] for t in T: svf = model.predict_survival(X.values, t=t) # survival function over time df1["svf" + str(t)] = svf df1["risk"] = model.predict_risk(X.values) # risk score df1.tail() 按用户的质量进行分组: # predictions: customer quartiles, grouped by their risk scores q1 = df1["risk"].quantile(0.25) q2 = df1["risk"].quantile(0.50) q3 = df1["risk"].quantile(0.75) q4 = df1["risk"].max() risk_groups = create_risk_groups( model=model, X=X_test, use_log = False, num_bins=30, figure_size=(20, 4), q1={'lower_bound':0, 'upper_bound':q1, 'color':'red'}, q2={'lower_bound':q1, 'upper_bound':q2, 'color':'green'}, q3={'lower_bound':q2, 'upper_bound':q3, 'color':'blue'}, q4={'lower_bound':q3, 'upper_bound':q4, 'color':'black'} )
模块 | 描述 | 类型 | 方法 |
survival function | 研究对象从试验开始直到某个特定时间点仍然存活的概率 | 参数估计 | Exponential, Log-Logistic, Log-Normal and Splines |
非参数估计 | Kaplan-Meier估计 | ||
cumulative hazard | 风险函数的估计值 | 参数估计 | Exponential, Log-Logistic, Log-Normal and Splines |
非参数估计 | Nelson-Aalen估计 | ||
Survival regression | 会加入额外的协变量(如年龄、国家等)与另一个变量进行回归 | 比例回归 | Cox 比例风险回归模型,指数回归模型 ,Weibull回归模型,Poisson回归模型 |
非比例回归 | 含参数与半参模型:Aalen’s Additive model 模型 、 CoxTimeVarying时变模型、AFT(accelerated failure time model)加速失效模型 |
数据集:IBM Watson 电信客户演示数据集WA_Fn-UseC_-Telco-Customer-Churn.csv
- “Tenure”:观察数据时他们成为客户的时间
- “Churn”:观察数据时客户是否离开
import pandas as pd data = pd.read_csv('WA_Fn-UseC_-Telco-Customer-Churn.csv') data.info() data.head() #列太多,看不全 data.head().transpose() #行转列,显示TOP5数据
2、 去除不需要的customerID列
data['customerID'].duplicated().any() #判断是否有重复 data = data.drop("customerID", axis=1) #去除列
3、 数据类型转化及去除空值行
data.TotalCharges = pd.to_numeric(data.TotalCharges, errors='coerce') #将字符串数值转化为数字 data.isnull().sum() #统计null值数量 data.dropna(inplace = True)
4、 显示类别型特征的类别情况
summary_categorical = [] for column in data.columns: if data[column].dtype == object: summary_categorical.append(column) print(data[column].value_counts()) print(f"----------------------------------")
data['gender'].replace(to_replace='Male', value=1, inplace=True) data['gender'].replace(to_replace='Female', value=0, inplace=True) binary_features = ['Partner', 'Dependents', 'PhoneService','MultipleLines','OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 'TechSupport', 'StreamingTV','StreamingMovies', 'PaperlessBilling','Churn'] for feat in binary_features: data[feat].replace(to_replace='Yes', value=1, inplace=True) data[feat].replace(to_replace=r'No', value=0, regex=True, inplace=True) data.head().transpose()
data_dummies = pd.get_dummies(data) data_dummies.head() data_dummies.info()
5、 查看特征间的相关性
import matplotlib.pyplot as plt import seaborn as sns corr = data_dummies.corr() sns.heatmap(corr, xticklabels=corr.columns.values, yticklabels=corr.columns.values, annot = True, annot_kws={'size':12}) heat_map=plt.gcf() heat_map.set_size_inches(20,15) plt.xticks(fontsize=10) plt.yticks(fontsize=10) plt.show()
# Checking again Correlation of "Churn" with other variables on a different plot sns.set(style='darkgrid', context='talk', palette='Dark2') plt.figure(figsize=(15,8)) data_dummies.corr()['Churn'].sort_values(ascending = False).plot(kind='bar')
columns_to_visualise = ['gender', 'SeniorCitizen', 'Partner', 'Dependents', 'PhoneService', 'MultipleLines', 'InternetService', 'OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 'TechSupport', 'StreamingTV', 'StreamingMovies', 'Contract', 'PaperlessBilling', 'PaymentMethod'] for column in columns_to_visualise: plot_data = data.groupby([column, 'Churn']).size().reset_index().pivot(columns='Churn', index=column, values=0) plot_data.plot.bar(stacked=True, rot = 45) plt.show()
# Visualise the numerical features fig, (ax1, ax2, ax3) = plt.subplots(1, 3, figsize = (20,6)) fig.suptitle("KDE of continuous feature variables") # tenure sns.kdeplot(data['tenure'].loc[data['Churn'] == 0], label='not churn', fill=True, ax = ax1) sns.kdeplot(data['tenure'].loc[data['Churn'] == 1], label='churn', fill=True, ax = ax1) ax1.set_xlabel("Tenure in months") # monthly charges sns.kdeplot(data['MonthlyCharges'].loc[data['Churn'] == 0], label='not churn', fill=True, ax = ax2) sns.kdeplot(data['MonthlyCharges'].loc[data['Churn'] == 1], label='churn', fill=True, ax = ax2) ax2.set_xlabel("Monthly Charges ($)") # total charges sns.kdeplot(data['TotalCharges'].loc[data['Churn'] == 0], label='not churn', fill=True, ax = ax3) sns.kdeplot(data['TotalCharges'].loc[data['Churn'] == 1], label='churn', fill=True, ax = ax3) ax3.set_xlabel("Total Charges ($)")
# Check for any outliers in any of the continuous variables continuous_labels = ['tenure', 'MonthlyCharges', 'TotalCharges'] i = 1 plt.figure(figsize=(15,15)) for var in continuous_labels: #plotting boxplot for each variable plt.subplot(3,4,i) plt.boxplot(data[var],whis=5) plt.title(var) i+=1 plt.tight_layout()
continuous_labels = ['tenure', 'MonthlyCharges', 'TotalCharges'] for var in continuous_labels: sns.boxplot(x = data['Churn'], y = data[var]) plt.show()
# Visualise scatter plots of tenure against monthly and total charges based on churn fig, (ax1, ax2) = plt.subplots(1, 2, figsize = (20,6)) fig.suptitle("Scatter plots of continuous feature variables") # Monthly Charges ax1.scatter(data['tenure'], data['MonthlyCharges'], c=data['Churn']) ax1.set_xlabel('Customer Tenure (Months)') ax1.set_ylabel('Monthly Charges') # Total Charges ax2.scatter(data['tenure'], data['TotalCharges'], c=data['Churn']) ax2.set_xlabel('Customer Tenure (Months)') ax2.set_ylabel('Total Charges');
import matplotlib.pyplot as plt from lifelines.plotting import plot_lifetimes time = data['tenure'].sample(25, replace=False) status = data['Churn'].sample(25, replace=False) plt.figure(figsize=(16, 6)); plot_lifetimes(time, status) plt.xlabel('Days subscribed'); plt.ylabel('Customer ID'); plt.title('Customer subscription lifelines')
# Using the data frame where we had created dummy variables y = data_dummies['Churn'].values X = data_dummies.drop(columns = ['Churn']) # Scaling all the variables to a range of 0 to 1 from sklearn.preprocessing import MinMaxScaler features = X.columns.values scaler = MinMaxScaler(feature_range = (0,1)) scaler.fit(X) X = pd.DataFrame(scaler.transform(X)) X.columns = features from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=101, stratify=y) print('length of X_train and x_test: ', len(X_train), len(X_test)) print('length of y_train and y_test: ', len(y_train), len(y_test)) from sklearn.linear_model import LogisticRegression from sklearn.metrics import confusion_matrix, accuracy_score from sklearn import metrics model = LogisticRegression(solver='lbfgs', max_iter=1000) result = model.fit(X_train, y_train) y_pred = model.predict(X_test) print ("Prdiction:",metrics.accuracy_score(y_test, y_pred)) print("Precision:",metrics.precision_score(y_test, y_pred)) print("Recall:",metrics.recall_score(y_test, y_pred)) print('Intercept: ' + str(result.intercept_)) # reporting the intercept print('Regression: ' + str(result.coef_)) # reporting the co-efficients
import itertools import numpy as np #Evaluation of Model - Confusion Matrix Plot def plot_confusion_matrix(cm, classes, title ='Confusion matrix', normalize = False, cmap = plt.cm.Blues): """ This function prints and plots the confusion matrix. Normalization can be applied by setting `normalize=True`. """ if normalize: cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis] print("Normalized confusion matrix") else: print('Confusion matrix') print(cm) plt.imshow(cm, interpolation='nearest', cmap=cmap) plt.title(title) plt.colorbar() tick_marks = np.arange(len(classes)) plt.xticks(tick_marks, classes, rotation=45) plt.yticks(tick_marks, classes) fmt = '.2f' if normalize else 'd' thresh = cm.max() / 2. for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])): plt.text(j, i, format(cm[i, j], fmt), horizontalalignment="center", color="white" if cm[i, j] > thresh else "black") plt.ylabel('True label') plt.xlabel('Predicted label') plt.tight_layout() # Compute confusion matrix cnf_matrix = confusion_matrix(y_test, prediction_test) np.set_printoptions(precision=2) # Plot non-normalized confusion matrix plt.figure() plot_confusion_matrix(cnf_matrix, classes=['No Churn','Churn'], title='Confusion matrix, with normalized data')
# To get the weights of all the variables weights = pd.Series(model.coef_[0],index=X.columns.values) weights.sort_values(ascending = False)
#!pip install scikit-plot import scikitplot as skplt #to make things easy y_pred_proba = model.predict_proba(X_test) skplt.metrics.plot_roc_curve(y_test, y_pred_proba)
data_dummies['Churn'].value_counts() from sklearn.utils import resample data_majority = data_dummies[data_dummies['Churn']==0] data_minority = data_dummies[data_dummies['Churn']==1] data_minority_upsampled = resample(data_minority, replace=True, n_samples=5163, #same number of samples as majority class random_state=1) #set the seed for random resampling # Combine resampled results data_upsampled = pd.concat([data_majority, data_minority_upsampled]) data_upsampled['Churn'].value_counts() data_upsampled.head().transpose() from sklearn.metrics import classification_report train, test = train_test_split(data_upsampled, test_size = 0.20) train_y_upsampled = train['Churn'].values test_y_upsampled = test['Churn'].values train_x_upsampled = train.drop(columns = ['Churn']) test_x_upsampled = test.drop(columns = ['Churn']) logisticRegr_balanced = LogisticRegression(solver='lbfgs', max_iter=1000) logisticRegr_balanced.fit(X=train_x_upsampled, y=train_y_upsampled) test_y_pred_balanced = logisticRegr_balanced.predict(test_x_upsampled) # ! pip install yellowbrick from sklearn.naive_bayes import GaussianNB from yellowbrick.classifier import ClassificationReport classes=['Churn','No Churn'] # Instantiate the classification model and visualizer bayes = GaussianNB() visualizer = ClassificationReport(bayes, classes=classes, support=True) visualizer.fit(train_x_upsampled, train_y_upsampled) # Fit the visualizer and the model visualizer.score(test_x_upsampled, test_y_upsampled) # Evaluate the model on the test data g = visualizer.poof() # Draw/show/poof the data
from sklearn.metrics import roc_auc_score # Get class probabilities for both models test_y_prob = model.predict_proba(X_test) test_y_prob_balanced = model.predict_proba(test_x_upsampled) # We only need the probabilities for the positive class test_y_prob = [p[1] for p in test_y_prob] test_y_prob_balanced = [p[1] for p in test_y_prob_balanced] print('Unbalanced model AUROC: ' + str(roc_auc_score(y_test, test_y_prob))) print('Balanced model AUROC: ' + str(roc_auc_score(test_y_upsampled, test_y_prob_balanced))) from sklearn.model_selection import cross_val_score # evaluate the model using 10-fold cross-validation scores = cross_val_score(result, X_train, y_train, scoring='accuracy', cv=10) print (' 10 fold cross-validation scores: ' ,scores) print('Mean of scores: ', scores.mean())
为什么不使用 OLS 线性回归?
OLS 通过绘制最小化平方误差项总和的回归线来工作。然而,对于未观察到的数据,无法知道误差项,因此不可能最小化这些值。
在上图中,U002 从丢失到跟进(可能是由于,例如,由于帐户上的一个未解决的技术问题导致客户在数据提取时的状态未知)被审查,U003 和 U004 被审查因为他们是现有客户。截至t1,只有 U001 和 U005 都观察到了出生和死亡。如图所示,丢弃未观察到的数据会低估客户的生命周期并使我们的结果产生偏差。
- “出生”事件:对于我们的应用程序,这将是客户与公司签订合同
- “死亡”事件:对我们而言,“死亡”是客户结束与公司的关系
Kaplan 是完全参数化的,也是计算生存或“无流失”的最简单方法。Kaplan-Meier 生存曲线定义为在给定时间长度内“没有流失”的概率,同时考虑许多小区间的时间。对于每个时间间隔,“无流失”概率计算为保留的用户数除以有离开风险的用户数。
对于每个主题(或客户或用户)只能有一个“出生”(注册、激活或注册)和一个“死亡”(无论是否观察到)的任何问题,第一个最好的起点是 Kaplan-Meier 曲线。这将使我们能够估计一个或多个队列的“生存函数”,它是生存分析中最常用的统计技术之一。
- 需要最少的功能集。Kaplan-Meier 只需要事件发生的时间(死亡或审查)以及出生和事件之间的生命周期。
- 许多时间序列分析难以实施。Kaplan-Meier 只需要所有事件都在同一时间段内发生
- 自动处理类别不平衡(死亡与审查事件的任何比例都可以)
- 因为它是一种非参数方法,所以很少对数据的基本分布做出假设
- 无法估计感兴趣的生存预测关系的差异幅度(无风险比或相对风险)
- 在事件发生时间研究中,不能同时考虑每个受试者的多个因素,也不能控制混杂因素
- 假设审查和生存之间是独立的,这意味着在时间t,那些被审查的人应该与那些没有被审查的人有相同的预后。
- 因为它是一个非参数模型,所以在底层数据分布已知的问题上,它不如竞争技术那么有效或准确
import lifelines from lifelines import KaplanMeierFitter # fitting kmf to churn data t = data['tenure'] churn = data['Churn'] kmf = lifelines.KaplanMeierFitter() kmf.fit(t, churn, label='Estimate for Average Customer') # plotting kmf curve fig, ax = plt.subplots(figsize=(10,7)) kmf.plot(ax=ax) ax.set_title('Kaplan-Meier Survival Curve — All Customers') ax.set_xlabel('Customer Tenure -Months') ax.set_ylabel('Customer Survival Chance (%)') plt.show()
我们将通过首先绘制样本的 KM 曲线来开始我们的生存分析,该曲线向我们显示普通客户在特定时间点的历史生存概率。请记住,协变量的存在对 KM 曲线没有影响,因为它只与持续时间和事件标志有关。通常,在实践中,首先查看 KM 曲线以了解我们的数据,然后再通过 CPH 模型进行更深入的分析。我们针对所有客户的第一条 KM 曲线,置信区间为 5%,如下所示:
- 处于风险中:观察到的任期超过该时间点的客户数量。例如,532 位客户的任期超过 70 个月
- 已审查:未流失的任期等于或小于该时间点的客户数量。例如,3,860 名客户的任期为 60 个月或更短,但他们当时并没有流失
- 事件:使用期限等于或小于该时间点的客户数量,该时间点已经流失。例如,1,681 名客户的任期为 50 个月或更短,并且在那时已经流失
在这一点上,我们不知道我们的哪些协变量对我们客户的生存机会有重大影响(CPH 模型将帮助我们)。但是,直观地我们知道,可以预期拥有更长的固定期限合同会影响客户的生存概率。为了检查这种潜在影响,我们将为 Contract 列的每个唯一值绘制 KM 曲线:
# save indices for each contract type idx_m2m = data['Contract'] == 'Month-to-month' idx_1y = data['Contract'] == 'One year' idx_2y = data['Contract'] == 'Two year' # plot the 3 KM plots for each category fig, ax = plt.subplots(nrows = 1, ncols = 1, figsize = (10,10)) kmf_m2m = lifelines.KaplanMeierFitter() ax = kmf_m2m.fit(durations = data.loc[idx_m2m, 'tenure'], event_observed = data.loc[idx_m2m, 'Churn'], label = 'Month-to-month').plot(ax = ax) kmf_1y = lifelines.KaplanMeierFitter() ax = kmf_1y.fit(durations = data.loc[idx_1y, 'tenure'], event_observed = data.loc[idx_1y, 'Churn'], label = 'One year').plot(ax = ax) kmf_2y = lifelines.KaplanMeierFitter() ax = kmf_2y.fit(durations = data.loc[idx_2y, 'tenure'], event_observed = data.loc[idx_2y, 'Churn'], label = 'Two year').plot(ax = ax) # display title and labels ax.set_title('KM Survival Curve by Contract Duration') ax.set_xlabel('Customer Tenure (Months)') ax.set_ylabel('Customer Survival Chance') plt.grid() lifelines.plotting.add_at_risk_counts(kmf_m2m, kmf_1y, kmf_2y, ax = ax)
正如预期的那样,我们在这里看到的生存曲线大不相同,随着时间的推移,每月合同客户的生存概率急剧下降。即使在三年后(准确地说是 40 个月):
- 签订 2 年合同的客户几乎有 100% 的生存概率
- 签订 1 年合同的客户有超过 95% 的生存概率
- 每月合同的客户只有大约 45% 的生存概率
Cox模型就像 scikit-learn 中的模型一样通过模型的print_summary方法访问以下模型摘要:
# 去掉共线特征 data_dummies.drop(columns = ['InternetService_Fiber optic', 'Contract_Month-to-month', 'PaymentMethod_Electronic check'], inplace = True) data.info() # Instantiate and fit CPH model cph = lifelines.CoxPHFitter() cph.fit(data_dummies, duration_col = 'tenure', event_col = 'Churn') # Print model summary cph.print_summary(model = 'base model', decimals = 3, columns = ['coef', 'exp(coef)', 'p'])
上述模型摘要列出了 CPH 模型分析的所有 one-hot 编码协变量。让我们看看这里提供的关键信息:
- 模型系数(coef列)告诉我们每个协变量如何影响风险。协变量为正coef表示具有该特征的客户更有可能流失,反之亦然
- exp(coef)是风险比,解释为变量每增加一个单位的风险比例,00 是中性的。例如,1.325 的风险比StreamingMovies意味着订阅流媒体电影服务的客户取消其服务的可能性高出 32.5%。从我们的角度来看,exp(coef)低于 1.0 是好的,这意味着客户在存在该协变量的情况下不太可能取消
- 模型一致性929 的解释与逻辑回归的 AUROC 类似:
- 接近5 是随机预测的预期结果
- 越接近0,1.0 显示出完美的预测一致性越好。
0.929 的一致性基本上意味着我们的模型在未经审查的数据上正确预测了 100 对中的92.9对。它基本上评估了模型的区分能力,即它在区分活着的和流失的对象方面有多好。比较两个不同的模型很有用。然而,concordance 并没有说明我们的模型校准得有多好——我们稍后会评估这一点。
这里的一对是指我们数据中所有可能的客户对。考虑一个示例,我们有五个未经审查的客户:A、B、C、D 和 E。从这五个客户中,我们总共可以有十个可能的配对:(A, B), (A, C), (A, D),(A,E),(B,C),(B,D),(B,E),(C,D),(C,E)和(D,E)。如果 E 被删失,则一致性指数计算将排除与 E 相关的对,并将考虑分母中剩余的八对。
2、确认比例危害 (PH) 假设
回想一下上面解释过的 CPH 模型的比例风险假设。可以使用基于缩放的 Schoenfeld 残差的统计测试和图形诊断来检查 PH 假设。该假设得到残差和时间之间不显着的关系(例如,p > 0.05)的支持,并被显着的关系(例如,p < 0.05)驳斥。
在不涉及许多技术细节的情况下,我将只关注实际应用。PH 假设可以通过lifelines’check_assumptions方法在拟合的 CPH 模型上进行检查。执行此方法将返回不满足 PH 假设的协变量的名称,一些关于如何纠正潜在的 PH 违规的通用建议,以及对于每个违反 PH 假设的变量,缩放 Schoenfeld 残差与时间的可视图转换(一条平线证实了 PH 假设)。有关详细信息,请参阅此内容。
在检查我们模型的 PH 假设后,我们发现我们的 3 个协变量不符合它。但是,出于项目的目的,我们将忽略这些警告,因为我们的最终目标是生存预测,而不是确定推断或相关性以了解协变量对生存持续时间和结果的影响。
# Check model assumptions, with a threshold of 0.001 (i.e. only highlight extreme significances - rationale explained after the results) cph.check_assumptions(data_dummies, p_value_threshold=0.001, show_plots=True) The ``p_value_threshold`` is set at 0.001. Even under the null hypothesis of no violations, some covariates will be below the threshold by chance. This is compounded when there are many covariates. Similarly, when there are lots of observations, even minor deviances from the proportional hazard assumption will be flagged. With that in mind, it's best to use a combination of statistical tests and visual tests to determine the most serious violations. Produce visual plots using ``check_assumptions(..., show_plots=True)`` and looking for non-constant lines. See link [A] below for a full example.
null_distribution | chi squared | ||||
degrees_of_freedom | 1 | ||||
model | <lifelines.CoxPHFitter: fitted with 7032 total… | ||||
test_name | proportional_hazard_test | ||||
test_statistic | p | -log2(p) | |||
Contract_One year | km | 115.75 | <0.005 | 87.26 | |
rank | 102.16 | <0.005 | 77.37 | ||
Contract_Two year | km | 152.13 | <0.005 | 113.70 | |
rank | 122.65 | <0.005 | 92.28 | ||
Dependents | km | 0.19 | 0.66 | 0.59 | |
rank | 0.19 | 0.66 | 0.60 | ||
DeviceProtection | km | 0.26 | 0.61 | 0.71 | |
rank | 1.12 | 0.29 | 1.79 | ||
InternetService_DSL | km | 0.66 | 0.42 | 1.26 | |
rank | 1.79 | 0.18 | 2.47 | ||
InternetService_No | km | 3.06 | 0.08 | 3.64 | |
rank | 5.38 | 0.02 | 5.62 | ||
MonthlyCharges | km | 0.33 | 0.57 | 0.82 | |
rank | 0.08 | 0.78 | 0.35 | ||
MultipleLines | km | 0.58 | 0.45 | 1.17 | |
rank | 2.44 | 0.12 | 3.08 | ||
OnlineBackup | km | 0.70 | 0.40 | 1.31 | |
rank | 1.81 | 0.18 | 2.49 | ||
OnlineSecurity | km | 0.56 | 0.45 | 1.14 | |
rank | 2.06 | 0.15 | 2.72 | ||
PaperlessBilling | km | 0.41 | 0.52 | 0.93 | |
rank | 0.76 | 0.38 | 1.39 | ||
Partner | km | 2.66 | 0.10 | 3.28 | |
rank | 4.72 | 0.03 | 5.07 | ||
PaymentMethod_Bank transfer (automatic) | km | 0.14 | 0.71 | 0.50 | |
rank | 0.06 | 0.81 | 0.31 | ||
PaymentMethod_Credit card (automatic) | km | 1.22 | 0.27 | 1.90 | |
rank | 2.37 | 0.12 | 3.02 | ||
PaymentMethod_Mailed check | km | 0.57 | 0.45 | 1.15 | |
rank | 1.76 | 0.18 | 2.44 | ||
PhoneService | km | 0.83 | 0.36 | 1.47 | |
rank | 2.26 | 0.13 | 2.92 | ||
SeniorCitizen | km | 3.62 | 0.06 | 4.13 | |
rank | 2.03 | 0.15 | 2.70 | ||
StreamingMovies | km | 0.47 | 0.49 | 1.02 | |
rank | 1.41 | 0.23 | 2.09 | ||
StreamingTV | km | 0.81 | 0.37 | 1.45 | |
rank | 1.91 | 0.17 | 2.58 | ||
TechSupport | km | 1.18 | 0.28 | 1.85 | |
rank | 2.93 | 0.09 | 3.53 | ||
TotalCharges | km | 154.94 | <0.005 | 115.74 | |
rank | 20.49 | <0.005 | 17.35 | ||
gender | km | 0.00 | 0.98 | 0.03 | |
rank | 0.16 | 0.69 | 0.54 |
1. Variable 'TotalCharges' failed the non-proportional test: p-value is <5e-05. Advice 1: the functional form of the variable 'TotalCharges' might be incorrect. That is, there may be non-linear terms missing. The proportional hazard test used is very sensitive to incorrect functional forms. See documentation in link [D] below on how to specify a functional form. Advice 2: try binning the variable 'TotalCharges' using pd.cut, and then specify it in `strata=['TotalCharges', ...]` in the call in `.fit`. See documentation in link [B] below. Advice 3: try adding an interaction term with your time variable. See documentation in link [C] below. Bootstrapping lowess lines. May take a moment... 2. Variable 'Contract_One year' failed the non-proportional test: p-value is <5e-05. Advice: with so few unique values (only 2), you can include `strata=['Contract_One year', ...]` in the call in `.fit`. See documentation in link [E] below. Bootstrapping lowess lines. May take a moment... 3. Variable 'Contract_Two year' failed the non-proportional test: p-value is <5e-05. Advice: with so few unique values (only 2), you can include `strata=['Contract_Two year', ...]` in the call in `.fit`. See documentation in link [E] below. Bootstrapping lowess lines. May take a moment... --- [A] https://lifelines.readthedocs.io/en/latest/jupyter_notebooks/Proportional%20hazard%20assumption.html [B] https://lifelines.readthedocs.io/en/latest/jupyter_notebooks/Proportional%20hazard%20assumption.html#Bin-variable-and-stratify-on-it [C] https://lifelines.readthedocs.io/en/latest/jupyter_notebooks/Proportional%20hazard%20assumption.html#Introduce-time-varying-covariates [D] https://lifelines.readthedocs.io/en/latest/jupyter_notebooks/Proportional%20hazard%20assumption.html#Modify-the-functional-form [E] https://lifelines.readthedocs.io/en/latest/jupyter_notebooks/Proportional%20hazard%20assumption.html#Stratification [27]: [[<AxesSubplot: xlabel='rank-transformed time\n(p=0.0000)'>, <AxesSubplot: xlabel='km-transformed time\n(p=0.0000)'>], [<AxesSubplot: xlabel='rank-transformed time\n(p=0.0000)'>, <AxesSubplot: xlabel='km-transformed time\n(p=0.0000)'>], [<AxesSubplot: xlabel='rank-transformed time\n(p=0.0000)'>, <AxesSubplot: xlabel='km-transformed time\n(p=0.0000)'>]]
3、CPH 模型验证
lifelines库有一个内置函数来执行我们拟合模型的 k 折交叉验证。使用一致性指数作为评分参数运行它会导致十倍的平均一致性指数为 0.928。
Concordance Index 没有说明模型的校准——即预测概率与实际真实概率的差距有多大?我们可以绘制一条校准曲线来检查我们的模型在任何给定时间正确预测概率的倾向。sklearn现在让我们使用’calibration_curve函数在 t = 12 处绘制校准曲线:
from sklearn.calibration import calibration_curve plt.figure(figsize=(10, 10)) ax1 = plt.subplot2grid((3, 1), (0, 0), rowspan=2) # Plot the perfectly calibrated line with 0 intercept and 1 slope ax1.plot([0, 1], [0, 1], ls = '--', label = 'Perfectly calibrated') # Calculate the churn probabilities at the end of 12th month. predict_survival_function gives us the survival probability, which we have deducted from 1 to get the churn probability probs = 1 - np.array(cph.predict_survival_function(data_dummies, times = 12).T) actual = data['Churn'] # For each decile, the calibration curve will plot the mean predicted churn probability on the x-axis and its corresponding proportion of observations that actually churned on y-axis, in each bin fraction_of_positives, mean_predicted_value = calibration_curve(actual, probs, n_bins = 10, strategy = 'quantile') ax1.plot(mean_predicted_value, fraction_of_positives, marker = 's', ls = '-', label='CoxPH') ax1.set_ylabel("Actual fraction of positives") ax1.set_xlabel("Predicted churn probability") ax1.set_ylim([-0.05, 1.05]) ax1.legend(loc="lower right") ax1.set_title('Calibration plots (reliability curve) for the 12th month')
鉴于我们的数据在流失客户和非流失客户之间的倾斜分布,我们将calibration_curve的strategy参数设置为‘quantile’。这将确保每个 bin 将根据第 12 个月的预测流失概率具有相同数量的样本。这是可取的,否则,考虑到流失/非流失客户之间的不平衡类别分布,我们将拥有不具有代表性的等宽箱。
上面的校准图向我们显示,对于绘制的前 7 个十分位数,我们的 CPH 模型低估了流失风险,而高估了后两个。
总体而言,校准曲线看起来还不错。让我们通过计算 Brier 分数来确认它,我们发现它是 0.17(0 是理想的 Brier 分数),一点也不差!
我们还可以绘制每个月的 Brier 分数,如下所示:
from sklearn.metrics import brier_score_loss # calculate Brier Score brier_score = brier_score_loss(data_dummies['Churn'], 1 - np.array(cph.predict_survival_function(data_dummies, times = 12).T), pos_label = 1) print('The Brier Score of our CPH Model is {:.2f} at the end of 12 months'.format(brier_score)) brier_score_dict = {} # Loop over all the months for i in range(1,73): score = brier_score_loss(data_dummies['Churn'], 1 - np.array(cph.predict_survival_function(data_dummies, times = i).T), pos_label=1) brier_score_dict[i] = [score] # Convert the dict to a DF brier_score_df = pd.DataFrame(brier_score_dict).T # Plot the Brier Score over time fig, ax = plt.subplots() ax.plot(brier_score_df) ax.set(xlabel='Month', ylabel='Brier Score', title='Cox PH Model Calibration Over Time') ax.grid()
我们可以看到,我们的模型在 5 到 20 个月之间进行了合理的校准。
4、CPH 模型可视化
现在让我们可视化 CPH 模型中分析的所有协变量的系数和风险比:
# Let's plot the coefficient outputs and their respective confidence intervals fig_coef, ax_coef = plt.subplots(figsize = (12,7)) ax_coef.set_title('Survival Regression: Coefficients and Confidence Intervals') cph.plot(ax = ax_coef)
- PhoneService
- StreamingMovies
- StreamingTV
- PaperlessBilling
- DeviceProtection
- PaymentMothod_Mailed check
- intertnetService_No
- Contact_Two Year
- Contact_One Year
- intertnetService_DSL
- PaymentMothod_Credit card(automatic)
- PaymentMothod_Bank transfer(automatic)
# Define figure and axes fig, (ax1, ax2) = plt.subplots(nrows = 1, ncols = 2, figsize = (20,9)) # Total Charges cph.plot_partial_effects_on_outcome('TotalCharges', values = [0, 3000, 6000], ax = ax1) ax1.set_title('CPH Survival Curve by Total Charges') ax1.set_xlabel('Tenure (Months)') ax1.set_ylabel('Survival Chance (%)') # Contract cph.plot_partial_effects_on_outcome(['Contract_One year', 'Contract_Two year'], values = [[1, 0], [0, 1]], ax = ax2) # we have two arrays in values, 1 for each of the covariate. eq to np.eye(2) ax2.set_title('CPH Survival Curve by Contract Duration') ax2.set_xlabel('Tenure (Months)') ax2.set_ylabel('Survival Chance (%)')
所以现在我们知道我们可以关注哪些协变量来降低我们现有的右删失客户的流失风险,即那些还没有流失的客户。让我们首先绘制PaymentMethod、Contract、InternetService和PhoneService 的KM曲线:
kmf = lifelines.KaplanMeierFitter() # We will use the data_kmf that we kept aside for this moment before feature engineering # function for creating KM curves segmented by categorical variables def plot_categorical_KM_Curve(feature, t='tenure', event='Churn', df=data, ax=None): for cat in df[feature].unique(): idx = df[feature] == cat kmf.fit(df[idx][t], event_observed=df[idx][event], label=cat) kmf.plot(ax=ax, label=cat) # call the above function and plot 4 KM Curves fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(nrows = 2, ncols = 2, figsize=(20,10)) # PaymentMethod plot_categorical_KM_Curve(feature='PaymentMethod', ax=ax1) ax1.set_title('Kaplan-Meier Survival Curve by Payment Method') ax1.set_xlabel('Customer Tenure (Months)') ax1.set_ylabel('Customer Survival Chance (%)') # Contract plot_categorical_KM_Curve(feature='Contract', ax=ax2) ax2.set_title('Kaplan-Meier Survival Curve by Contract Duration') ax2.set_xlabel('Customer Tenure (Months)') ax2.set_ylabel('Customer Survival Chance (%)') # InternetService plot_categorical_KM_Curve(feature='InternetService', ax=ax3) ax3.set_title('Kaplan-Meier Survival Curve by Internet Service') ax3.set_xlabel('Customer Tenure (Months)') ax3.set_ylabel('Customer Survival Chance (%)') # PhoneService plot_categorical_KM_Curve(feature='PhoneService', ax=ax4) ax4.set_title('Kaplan-Meier Survival Curve by Phone Service') ax4.set_xlabel('Customer Tenure (Months)') ax4.set_ylabel('Customer Survival Chance (%)')
- 鼓励客户通过银行转帐或信用卡设置自动付款
- 让客户签订 1 年或 2 年的合同
- 关于互联网服务,首先我们应该分析一下DSL或光纤互联网订阅用户流失率较高的根本原因——可能是服务质量差、价格高、客户服务不足等。我们也应该这样做互联网服务盈利能力分析。最佳行动方案取决于该分析。
- 有或没有电话服务的客户的生存曲线似乎没有太大的统计差异
predict_survival_function的输出将是一个矩阵,其中包含每个剩余客户在特定未来时间点的生存概率,直至我们数据中的最大历史持续时间。因此,如果我们的数据中的最长持续时间是 70 个月,predict_survival_function那么将从今天开始预测接下来的 70 个月。该方法还允许我们通过参数计算未来特定月份的生存概率(有助于回答诸如我们希望在接下来的 3 个月和 6 个月末保留多少客户等问题)
censored_data = data_dummies[data_dummies['Churn'] == 0] censored_data_last_obs = censored_data['tenure'] conditioned_sf = cph.predict_survival_function(censored_data, conditional_after = censored_data_last_obs) conditioned_sf
预计第 3列中的客户在5个月后存活的概率为89.43%.
# Predict the month where the survival probability falls below the median predictions_50 = lifelines.utils.median_survival_times(conditioned_sf) predictions_50 # Use the following if we wanted to assign any other threshold, i.e. month when the survival function reaches the qth percentile # predictions_25 = lifelines.utils.qth_survival_times(0.25, conditioned_sf) # 25% survival chance
- 将转置后的输出median_survival_times与 CustomerID 和各自的 MonthlyCharges(我们一开始就放在一边)连接起来。这将使我们能够将我们的预测与每个特定客户及其每月费用联系起来。
- 通过将每月费用乘以他们的预期流失月份来计算每个客户在今天流失时的预期损失。
- 对于inf预期流失月份的客户,替换inf为启发式,可能是 24,对应于 2 年的合同。如果他们今天离开我们,假设他们将在我们身边至少呆 24 个月,这将使我们能够估计这些客户的相关预期损失。
# We can use this single row and by joining it to our data DF, we can investigate the predicted remaining value a customer has for the business # Note that we will also append our censored customerIDs that we kept aside at the beginning of the model so as to properly identify our customers customer_predictions = pd.concat([customerID[['customerID', 'MonthlyCharges']], predictions_50.T], axis = 1) # Rename the column returned by median_survival_times function customer_predictions.rename(columns = {0.5: 'Exp_Churn_Month'}, inplace = True) # Add another column for the expected loss if these customers were to leave us today customer_predictions['Exp_Loss'] = customer_predictions['MonthlyCharges'] * customer_predictions['Exp_Churn_Month'] customer_predictions
# Assign 24 to inf values in Exp_Churn_Month customer_predictions['Exp_Churn_Month'].replace([np.inf, -np.inf], 24, inplace = True) # Recalculate the customer_predictions table and sort it customer_predictions['Exp_Loss'] = customer_predictions['MonthlyCharges'] * customer_predictions['Exp_Churn_Month'] customer_predictions.sort_values(by = ['Exp_Loss'], ascending = False)
我们能做些什么来留住他们?我们的 CPH 模型的系数和相关的知识管理生存曲线表明我们需要关注哪些特征来留住我们现有的客户。但是,如果我们能够说服我们的客户注册这些可以防止客户流失的特定功能,那么现在让我们尝试估算一下金钱收益。
- 1年的合同
- 2年的合同
- 通过银行转账自动付款
- 通过信用卡自动付款
# Store the column names to be analysed in a list upgrades = ['Contract_One year', 'Contract_Two year', 'InternetService_DSL', 'PaymentMethod_Bank transfer (automatic)', 'PaymentMethod_Credit card (automatic)'] # Define an empty dictionary to hold the results results_dict = {} # For each of the potential upgrades, loop through each individual customer to determine the increase in expected median churn month for customer in customer_predictions.index: actual = censored_data.loc[[customer]] # save the actual cutomer data as a series change = censored_data.loc[[customer]] # same as actual but this series will be used to evaluate hypothetical scenarios results_dict[customer] = [cph.predict_median(actual, conditional_after=censored_data_last_obs[customer])] # calculate the base median churn month for upgrade in upgrades: change[upgrade] = 1 if list(change[upgrade]) == 0 else 1 # hypothetical scenario where customer signs up for this particular upgrade results_dict[customer].append(cph.predict_median(change, conditional_after = censored_data_last_obs[customer])) # calculate the revised median churn month under the above hypothetical scenario change = censored_data.loc[[customer]] # bring the change series back to the original state (i.e. undo the effect of the hypothetical scenario) # Convert dictionary to a DF and transpose the resultant DF back to the required format (each customer in a separate row) results_df = pd.DataFrame(results_dict).T # add 'baseline' to the beginning of upgrades list. This new list will be used to rename the columns of results_df column_names = upgrades column_names.insert(0, 'baseline') results_df.columns = column_names # Concat this new df with customer_predictions DF upgrade_analysis = pd.concat([customer_predictions, results_df], axis = 1) upgrade_analysis
现在,如果我们可以注册特定功能(在其他条件不变的情况下),我们就可以为每个客户修改预期流失月份。例如,如果我们可以让客户 7590-VHVEG 签署一份为期一年的合同,在其他条件不变的情况下,我们可以期望客户 7590-VHVEG 与我们再呆 11 个月。或者,如果他设置自动付款,在其他条件不变的情况下,他预计会再逗留 4 个月。
# replace inf values in baseline column with NaN before dropping these rows upgrade_analysis['baseline'].replace([np.inf, -np.inf], np.nan, inplace = True) upgrade_analysis.dropna(subset = ['baseline'], axis=0, inplace = True) upgrade_analysis
# Calculate the difference in months between baseline and each feature's revised tenures and multiple this difference by MonthlyCharges upgrade_analysis['1yrContract Uplift'] = (upgrade_analysis['Contract_One year'] - upgrade_analysis['baseline']) * upgrade_analysis['MonthlyCharges'] upgrade_analysis['2yrContract Uplift'] = (upgrade_analysis['Contract_Two year'] - upgrade_analysis['baseline']) * upgrade_analysis['MonthlyCharges'] upgrade_analysis['InternetService_DSL Uplift'] = (upgrade_analysis['InternetService_DSL'] - upgrade_analysis['baseline']) * upgrade_analysis['MonthlyCharges'] upgrade_analysis['PaymentMethod_Bank_transfer Uplift'] = (upgrade_analysis['PaymentMethod_Bank transfer (automatic)'] - upgrade_analysis['baseline']) * upgrade_analysis['MonthlyCharges'] upgrade_analysis['PaymentMethod_Credit_card Uplift'] = (upgrade_analysis['PaymentMethod_Credit card (automatic)'] - upgrade_analysis['baseline']) * upgrade_analysis['MonthlyCharges'] upgrade_analysis
所以现在我们知道客户 7590-VHVEG 的以下信息:
- 如果他签署一份为期一年的合同,在其他条件不变的情况下,他预计会增加35 美元的额外收入
- 如果他签署一份为期 2 年的合同,在其他条件不变的情况下,他的预期寿命将增加35 美元
- 如果他转换为其中一种自动付款方式,在其他条件不变的情况下,他的预期寿命将增加4 美元