所有文章

Scikit-Learn体系化学习之内置数据集

sklearn.datasets 是 scikit-learn 中用于加载和生成数据集的工具模块,内置了多种经典数据集和灵活的数据生成方法,适合快速实验和算法验证。 内置数据集类型 模块中的数据集分为三类,通过不同函数加载: …

Scikit-Learn体系化学习之核心API

scikit-learn 的核心 API 设计以一致性和模块化为核心,所有功能模块遵循统一的接口规范,使得数据预处理、模型训练、评估和部署流程高度标准化。 API 设计原则 一致性接口:所有估计器(模型、预处理工具)均…

Scikit-Learn体系化学习之数据预处理

Scikit-Learn 的 sklearn.preprocessing 模块提供了一系列数据预处理工具,帮助将原始数据转换为适合机器学习模型的形式。 缺失值处理 在 scikit-learn 中,缺失值处理是数据预处理的关键步骤之一。大多数机器学…

Python市场渠道归因包ChannelAttribution

Channel Attribution 简介 Channel Attribution 是一个用于解决市场营销渠道归因问题的 Python 包。它通过数据驱动的方法(如马尔可夫链模型)和启发式模型(如首次点击、末次点击)来量化不同营销渠道对转化的贡献…

数据, 术→技巧 ·

用户流失BTYD模型的盘点

BTYD模型简介 BTYD(Buy Till You Die)模型是一类用于预测客户未来购买行为的统计模型,其核心假设是:客户在“活跃”状态下持续购买,直到永久流失(“死亡”)。模型通过历史交易数据,估算客户的购买频率、流失概…

数据, 术→技巧 ·

Python市场营销分析包PyMC-Marketing

PyMC-Marketing简介 PyMC-Marketing是一个基于PyMC(一个用于贝叶斯统计建模的Python库)构建的开源工具包,专门用于解决市场营销领域的数据分析与建模任务。它提供了一套高效、灵活的模型和工具,帮助市场营销从…

数据, 术→技巧 ·

Python生存分析包:lifelines

关于生存分析,先前已经整理过一篇非常详细的文章:生存分析从概念到实战,里面也涉及到了 lifelines 的使用。本次梳理期望从另外的层面对生存分析的使用进行进一步的梳理。 Lifelines 简介 lifelines 是一个专注于…

数据, 术→技巧 ·

Python CLV分析工具:Lifetimes

Lifetimes简介 Python的lifetimes包是一个专注于客户生命周期分析(Customer Lifetime Value, CLV)和重复购买行为建模的工具库。它基于概率模型(如Beta-Geometric和Gamma-Gamma模型),帮助预测客户的未来交易频…

数据, 术→技巧 ·

媒体组合模型(Marketing Mix Modeling,MMM)

什么是媒体组合模型? 媒体组合模型(Marketing Mix Modeling,MMM)是一种统计分析方法,用于量化不同营销渠道和外部因素对销售或业务目标的影响,从而优化营销预算分配和策略。 核心目标 效果评估:量化各营…

数据, 术→技巧 ·

时序预测模型 Uber Orbit

UberOrbit简介 Uber开源的Orbit是一个专为时间序列预测设计的Python库,旨在帮助开发者快速构建、评估和部署预测模型。它结合了统计模型和机器学习技术,特别适合处理具有复杂季节性、趋势性和外部协变量的时间序列…

数据, 术→技巧 ·