分类: 法→原理

K-Means改进算法X-Means/G-Means

X-Means 和 G-Means 都是基于 K-Means 的改进算法,主要目标是自动确定最优的聚类数量k,无需人工预先指定。 X-Means X-Means 是一种能够自动确定最佳聚类数量的改进型K-Means算法,它通过统计指标来评估聚类…

法→原理, 算法实现 ·

层次聚类方法ROCK

ROCK算法概述 ROCK产生背景 传统聚类算法的局限性 20世纪90年代末,随着电子商务、市场篮子分析和生物信息学等领域的快速发展,分类属性和布尔型数据的聚类需求日益凸显。传统聚类方法面临两大挑战: 距…

法→原理, 算法实现 ·

机器学习聚类算法之K-Medians

K-Medians简介 K-Medians 是 K-Means 聚类算法的一种变体,通过使用中位数而非均值来计算聚类中心,从而提升对异常值的鲁棒性。 核心思想 目标函数:最小化每个数据点到其所属聚类中心的曼哈顿距离之…

法→原理, 算法实现 ·

机器学习聚类算法之k-medoids

k-medoids算法概述 k-medoids 是一种基于中心的聚类算法,是 k-means 算法的改进版本。与 k-means 使用簇内数据点的均值作为中心点不同,k-medoids 使用实际数据点作为中心点(称为 medoid)。 与 k-means …

法→原理, 算法实现 ·

开源因果推断库CausalML

因果推断核心概念 我们将通过一个贯穿始终的简单例子来讲解:评估一个广告(比如一封营销邮件)对用户购买行为的影响。 干预(Treatment): 发送营销邮件。 W = 1:用户被分配到处理组(计划发送邮件)…

为什么聚类常让人失望

引言:聚类的美好承诺与普遍困境 当我们谈论聚类分析时,脑海中往往会浮现这样一个理想场景:将相似的数据对象自动分组,为业务决策提供清晰指导。这种无监督学习方法的吸引力在于其能够探索数据内在结构,而无需…

机器学习, 法→原理 ·

字符压缩编码之香农-范诺编码(Shannon-Fano Coding)

香农-范诺编码简介 香农-范诺编码(Shannon-Fano Coding)是一种经典的无损数据压缩算法,由克劳德·香农(Claude Shannon)和罗伯特·范诺(Robert Fano)于1948年左右独立提出。这是第一种基于信息熵理论的压缩算…

法→原理, 算法实现 ·

字符压缩之哈夫曼编码(Huffman Coding)

哈夫曼编码简介 哈夫曼编码(Huffman Coding)是一种基于字符出现频率进行编码的无损数据压缩算法,由大卫·哈夫曼于1952年提出。它的核心思想是:赋予高频字符较短的编码,赋予低频字符较长的编码,从而使整个数据…

法→原理, 算法实现 ·

NLP技术分析之均值池化

均值池化简介 均值池化(Mean Pooling) 是自然语言处理(NLP)中常用的一种技术,用于将一组词向量(如一个句子中所有词的向量)压缩成一个固定长度的句子向量。它的核心思想是通过简单的数学平均操作,将分散的…

营销增益模型(Uplift Model)

随着机器学习等技术的发展,智能化营销已经渗透到各行各业。商家可以通过多种渠道触达消费者,比如淘宝上商家可以圈定他想要的目标人群,进行广告推送,为店铺拉新,也可以通过短信或旺旺这些渠道定向发放优惠券。…

机器学习, 法→原理 ·