Feature-engine简介 Feature-engine 是一个专门用于特征工程的 Python 库,旨在简化数据预处理和特征构建的流程。其设计兼容 scikit-learn 的 API(如 fit() 和 transform() 方法),支持无缝集成到机器学习管道(…
三角函数回顾 六大三角函数 直角三角形定义 在一个直角三角形中,假设有一个锐角$\theta$,定义: 邻边(Adjacent):与角$\theta$相邻的边。 对边(Opposite):与角$\theta$相对的边。 斜边(Hypotenuse):…
我们测得一些数据,要对数据进行分析的时候,会发现数据有一些问题使得我们不能满足我们以前分析方法的一些要求(正态分布、平稳性)为了满足经典线性模型的正态性假设,常常需要使用数值变换,使其转换后的数据接…
在日常的建模过程中常常需要特征进行筛选,选择与模型相关度最高的特征,避免过拟合。通常使用的最多的方法是决策树中的feature_importance。 scikit-learn决策树 scikit-learn决策树类中的feature_importances_属…
在机器学习数据预处理阶段经常需要对数据进行缺失值处理。关于缺失值的处理并没有想象中的那么简单。以下为一些经验分享。 数据缺失类型 完全随机丢失(MCAR,Missing Completely at Random):某个变量是否缺…
类别型特征(categorical feature)主要是指职业,血型等在有限类别内取值的特征。它的原始输入通常是字符串形式,大多数算法模型不接受数值型特征的输入,针对数值型的类别特征会被当成数值型特征,从而造成训练的…
数据缩放简介 使用单一指标对某事物进行评价并不合理,因此需要多指标综合评价方法。多指标综合评价方法,就是把描述某事物不同方面的多个指标综合起来得到一个综合指标,并通过它评价、比较该事物。由于性质不同…