钱魏Way

1029篇文章

Python特征工程工具Feature-engine

Feature-engine简介 Feature-engine 是一个专门用于特征工程的 Python 库,旨在简化数据预处理和特征构建的流程。其设计兼容 scikit-learn 的 API(如 fit() 和 transform() 方法),支持无缝集成到机器学习管道(…

器→工具, 工具软件 ·

Scikit-Learn系统化学习之列变换

ColumnTransformer 是 scikit-learn 中用于对数据的不同列应用不同预处理步骤的工具,特别适用于处理包含混合类型特征(如数值型、分类型、文本型)的数据集。 ColumnTransformer核心功能与使用场景 核心功能…

数据, 术→技巧 ·

Scikit-Learn超参数调优工具

超参数调优是机器学习模型开发的核心步骤,直接影响模型性能。scikit-learn 提供多种工具帮助高效优化参数。 GridSearchCV Scikit-Learn 的 GridSearchCV 是一种通过穷举参数组合并交叉验证评估性能的超参数…

数据, 术→技巧 ·

Scikit-Learn 处理类别不平衡问题

类别不平衡是分类任务中常见的问题,即某些类别的样本数量显著少于其他类别。除了前面介绍的imbalanced-learn库以外,还能使用class_weight参数进行处理。 class_weight与imbalanced-learn的对比 核心定义与…

数据, 术→技巧 ·

跨指标多维根因分析框架CMMD

CMMD简介 CMMD(Cross-Metric Multidimensional Diagnosis)是一种面向 复杂系统多源异构数据 的根因定位框架,其核心思想是通过 跨指标关联性分析 和 多维时空模式挖掘,在 无监督或半监督 场景下快速定位故障根…

数据, 术→技巧 ·

处理类别不平衡的Python库imbalanced-learn

imbalanced-learn(通常简称为 imblearn)是一个专门用于处理类别不平衡数据的 Python 库。它与 Scikit-learn 兼容,提供了多种方法来解决分类任务中类别样本数量差异过大的问题。 为什么需要 imbalanced-lear…

数据, 术→技巧 ·

规避大数据杀熟的定价实验方法研究

什么是大数据杀熟? 大数据杀熟(Big Data Price Discrimination)是指企业利用用户的历史行为数据、消费习惯、设备信息、地理位置等个人隐私数据,通过算法分析对不同用户实施差异化定价的行为。其核心在于利用数…

数据, 术→技巧 ·

西蒙学习法的了解与学习

西蒙学习法真实存在? 西蒙学习法并非赫伯特·西蒙(Herbert A. Simon)本人直接提出的具体学习方法,而是后人基于他的认知心理学理论(如“组块化”“有限理性”等)总结出的一套学习策略。 西蒙学习法的真实性 …

志→目标, 自我提升 ·

钢笔购买与使用推荐

由于自己平时写写字,按照网上的推荐零零散散买了非常多的钢笔,回头发现那些推荐的文章并不那么回事。主要问题: 大部分按照价位进行推荐,不知不觉中被引导了价格越高质量越好的假设。 大部分推荐的是一…

器→工具, 工具软件 ·

基于加权风险的多维根因定位方法RiskLoc

RiskLoc简介 RiskLoc 是一种通过 量化多维风险权重 和 动态概率融合 实现故障根因定位的方法,其核心思想是将系统异常视为多个潜在因素(如硬件、软件、网络等)的加权风险组合,通过概率模型计算各因素成为根因的…

数据, 术→技巧 ·