标签: 特征工程

统计学中的数值变换

我们测得一些数据,要对数据进行分析的时候,会发现数据有一些问题使得我们不能满足我们以前分析方法的一些要求(正态分布、平稳性)为了满足经典线性模型的正态性假设,常常需要使用数值变换,使其转换后的数据接…

数据, 术→技巧 ·

基于决策树的特征重要性评估

在日常的建模过程中常常需要特征进行筛选,选择与模型相关度最高的特征,避免过拟合。通常使用的最多的方法是决策树中的feature_importance。 scikit-learn决策树 scikit-learn决策树类中的feature_importances_…

数据, 术→技巧 ·

机器学习/数据分析之缺失值处理

在机器学习数据预处理阶段经常需要对数据进行缺失值处理。关于缺失值的处理并没有想象中的那么简单。以下为一些经验分享。 数据缺失类型 完全随机丢失(MCAR,Missing Completely at Random):某个变量是否…

数据, 术→技巧 ·

机器学习之类别特征处理

类别型特征(categorical feature)主要是指职业,血型等在有限类别内取值的特征。它的原始输入通常是字符串形式,大多数算法模型不接受数值型特征的输入,针对数值型的类别特征会被当成数值型特征,从而造成训练的…

数据, 术→技巧 ·

数据缩放:标准化和归一化

数据缩放简介 使用单一指标对某事物进行评价并不合理,因此需要多指标综合评价方法。多指标综合评价方法,就是把描述某事物不同方面的多个指标综合起来得到一个综合指标,并通过它评价、比较该事物。由于性质不同…

数据, 术→技巧 ·