imbalanced-learn(通常简称为 imblearn)是一个专门用于处理类别不平衡数据的 Python 库。它与 Scikit-learn 兼容,提供了多种方法来解决分类任务中类别样本数量差异过大的问题。 为什么需要 imbalanced-lear…
什么是大数据杀熟? 大数据杀熟(Big Data Price Discrimination)是指企业利用用户的历史行为数据、消费习惯、设备信息、地理位置等个人隐私数据,通过算法分析对不同用户实施差异化定价的行为。其核心在于利用数…
西蒙学习法真实存在? 西蒙学习法并非赫伯特·西蒙(Herbert A. Simon)本人直接提出的具体学习方法,而是后人基于他的认知心理学理论(如“组块化”“有限理性”等)总结出的一套学习策略。 西蒙学习法的真实性 …
由于自己平时写写字,按照网上的推荐零零散散买了非常多的钢笔,回头发现那些推荐的文章并不那么回事。主要问题: 大部分按照价位进行推荐,不知不觉中被引导了价格越高质量越好的假设。 大部分推荐的是一…
RiskLoc简介 RiskLoc 是一种通过 量化多维风险权重 和 动态概率融合 实现故障根因定位的方法,其核心思想是将系统异常视为多个潜在因素(如硬件、软件、网络等)的加权风险组合,通过概率模型计算各因素成为根因的…
AutoRoot 简介 AutoRoot 是一种基于 自动化机器学习(AutoML) 和 因果推理 的多维故障根因定位方案,旨在通过智能化分析高维监控数据(如指标、日志、链路追踪等),快速、精准地识别复杂系统中的故障根源。其核…
Scikit-Learn 提供了多种特征选择方法,主要分为以下几类,结合具体场景和算法特性进行选择: 过滤法 (Filter Methods) 基于统计指标评估特征重要性,独立于模型。 方差阈值 (Variance Threshold) 方差阈值…
JSON在开发场景的应用 JSON(JavaScript Object Notation)在开发中因其轻量级、易读、灵活的特性,已成为处理结构化或半结构化数据的首选格式。 前后端数据交互 场景:客户端(Web/App)与服务器之间的…
Squeeze简介 Squeeze是一种面向多维监控数据的通用根因定位算法,旨在从海量维度组合中快速、鲁棒地识别导致KPI(关键性能指标)异常的根本原因。其核心思想是通过分析多维指标的异常分布差异,逐步缩小可能触发异…
Hotspot是一款来自百度的多维异常定位方法,以下内容是根据其发布的论文梳理得出,仅供参考。 问题背景与挑战 目标:在具有多维属性(如“数据中心、服务类型、客户端OS”)的加法型KPI(如请求量、错误数)中,快…