分类: 术→技巧

处理类别不平衡的Python库imbalanced-learn

imbalanced-learn(通常简称为 imblearn)是一个专门用于处理类别不平衡数据的 Python 库。它与 Scikit-learn 兼容,提供了多种方法来解决分类任务中类别样本数量差异过大的问题。 为什么需要 imbalanced-lear…

数据, 术→技巧 ·

规避大数据杀熟的定价实验方法研究

什么是大数据杀熟? 大数据杀熟(Big Data Price Discrimination)是指企业利用用户的历史行为数据、消费习惯、设备信息、地理位置等个人隐私数据,通过算法分析对不同用户实施差异化定价的行为。其核心在于利用数…

数据, 术→技巧 ·

基于加权风险的多维根因定位方法RiskLoc

RiskLoc简介 RiskLoc 是一种通过 量化多维风险权重 和 动态概率融合 实现故障根因定位的方法,其核心思想是将系统异常视为多个潜在因素(如硬件、软件、网络等)的加权风险组合,通过概率模型计算各因素成为根因的…

数据, 术→技巧 ·

多维故障根因定位方案 AutoRoot

AutoRoot 简介 AutoRoot 是一种基于 自动化机器学习(AutoML) 和 因果推理 的多维故障根因定位方案,旨在通过智能化分析高维监控数据(如指标、日志、链路追踪等),快速、精准地识别复杂系统中的故障根源。其核…

数据, 术→技巧 ·

Scikit-Learn特征选择方法

Scikit-Learn 提供了多种特征选择方法,主要分为以下几类,结合具体场景和算法特性进行选择: 过滤法 (Filter Methods) 基于统计指标评估特征重要性,独立于模型。 方差阈值 (Variance Threshold) 方差阈值…

数据, 术→技巧 ·

PostgreSQL中JSON与JSONB的使用

JSON在开发场景的应用 JSON(JavaScript Object Notation)在开发中因其轻量级、易读、灵活的特性,已成为处理结构化或半结构化数据的首选格式。 前后端数据交互 场景:客户端(Web/App)与服务器之间的…

术→技巧, 研发 ·

多维根因定位算法Squeeze

Squeeze简介 Squeeze是一种面向多维监控数据的通用根因定位算法,旨在从海量维度组合中快速、鲁棒地识别导致KPI(关键性能指标)异常的根本原因。其核心思想是通过分析多维指标的异常分布差异,逐步缩小可能触发异…

数据, 术→技巧 ·

多维属性加法型KPI的异常定位方法Hotspot

Hotspot是一款来自百度的多维异常定位方法,以下内容是根据其发布的论文梳理得出,仅供参考。 问题背景与挑战 目标:在具有多维属性(如“数据中心、服务类型、客户端OS”)的加法型KPI(如请求量、错误数)中,快…

数据, 术→技巧 ·

Scikit-Learn体系化学习之内置数据集

sklearn.datasets 是 scikit-learn 中用于加载和生成数据集的工具模块,内置了多种经典数据集和灵活的数据生成方法,适合快速实验和算法验证。 内置数据集类型 模块中的数据集分为三类,通过不同函数加载: …

Scikit-Learn体系化学习之核心API

scikit-learn 的核心 API 设计以一致性和模块化为核心,所有功能模块遵循统一的接口规范,使得数据预处理、模型训练、评估和部署流程高度标准化。 API 设计原则 一致性接口:所有估计器(模型、预处理工具)均…