数据 – 第 2 页

分类：数据

项目实践：正负样本文本的关键词提取

项目简介：针对一标识的文本信息，抽取文本中的关键词，最后以词云的方式暂时关键词。数据集更有2列:text、flag。其中text是文本内容， flag样本标识(0或1)。步骤一：对文本内容进行分词处理这里采用的是结…

数据, 术→技巧 · 2025-05-26

谈谈数据会说谎

“Lies, damned lies, and statistics” 是一句广为人知的谚语，常被用来批判对统计数据的滥用或误导性使用。出处与背景起源争议：这句话的确切出处尚无定论，但普遍认为它源于19世纪的英国政坛。常被…

数据, 术→技巧 · 2025-04-11

Scikit-Learn 中的评估指标

先前按照Scikit-Learn的文档整理了一份评估指标，回头看下梳理的非常的技术化，整理完有种自己都不太想看的感觉。今天抽时间再做一次重新的梳理。分类任务评估指标混淆矩阵（Confusion Matrix）分类任务的基…

数据, 术→技巧 · 2025-04-08

不可见Unicode字符标记AI生成内容

自2022年11月推出以来，ChatGPT 一直备受关注。其根据输入内容和上下文提供类似于人类的回应能力，给一些重视原创内容的领域带来了困扰，包括教育、内容营销、出版、新闻和法律等领域。他们最大的问题是“我们如何区…

数据, 术→技巧 · 2025-04-07

Scikit-Learn系统化学习之列变换

ColumnTransformer 是 scikit-learn 中用于对数据的不同列应用不同预处理步骤的工具，特别适用于处理包含混合类型特征（如数值型、分类型、文本型）的数据集。 ColumnTransformer核心功能与使用场景核心功能…

数据, 术→技巧 · 2025-04-02

Scikit-Learn超参数调优工具

超参数调优是机器学习模型开发的核心步骤，直接影响模型性能。scikit-learn 提供多种工具帮助高效优化参数。 GridSearchCV Scikit-Learn 的 GridSearchCV 是一种通过穷举参数组合并交叉验证评估性能的超参数…

数据, 术→技巧 · 2025-04-02

Scikit-Learn 处理类别不平衡问题

类别不平衡是分类任务中常见的问题，即某些类别的样本数量显著少于其他类别。除了前面介绍的imbalanced-learn库以外，还能使用class_weight参数进行处理。 class_weight与imbalanced-learn的对比核心定义与…

数据, 术→技巧 · 2025-04-01

跨指标多维根因分析框架CMMD

CMMD简介 CMMD（Cross-Metric Multidimensional Diagnosis）是一种面向复杂系统多源异构数据的根因定位框架，其核心思想是通过跨指标关联性分析和多维时空模式挖掘，在无监督或半监督场景下快速定位故障根…

数据, 术→技巧 · 2025-03-31

处理类别不平衡的Python库imbalanced-learn

imbalanced-learn（通常简称为 imblearn）是一个专门用于处理类别不平衡数据的 Python 库。它与 Scikit-learn 兼容，提供了多种方法来解决分类任务中类别样本数量差异过大的问题。为什么需要 imbalanced-lear…

数据, 术→技巧 · 2025-03-31

规避大数据杀熟的定价实验方法研究

什么是大数据杀熟？大数据杀熟（Big Data Price Discrimination）是指企业利用用户的历史行为数据、消费习惯、设备信息、地理位置等个人隐私数据，通过算法分析对不同用户实施差异化定价的行为。其核心在于利用数…

数据, 术→技巧 · 2025-03-31

分类目录

分类：数据

项目实践：正负样本文本的关键词提取

谈谈数据会说谎

Scikit-Learn 中的评估指标

不可见Unicode字符标记AI生成内容

Scikit-Learn系统化学习之列变换

Scikit-Learn超参数调优工具

Scikit-Learn 处理类别不平衡问题

跨指标多维根因分析框架CMMD

处理类别不平衡的Python库imbalanced-learn

规避大数据杀熟的定价实验方法研究

热门文章：

通俗易懂理解数据库概念

统计学中的数值变换

Facebook Prophet使用与调参实践

探索性数据分析详解

机器学习算法之LightGBM

数据分析之离散度指标

时间序列预测之ARIMA

数据缩放：标准化和归一化

密度聚类算法之OPTICS

分类： 数据

热门文章：

分类：数据