什么是C值? 想象一下你要估计一个网约车司机的完单率(比如接单后成功完成的比例)。你有两种信息: 样本信息:这个司机实际接了多少单,完成了多少单 先验信息:所有司机的平均完单率是多少 C值就是…
BANG算法概述 BANG算法是21世纪初提出的一种用于空间数据聚类的算法,它结合了网格划分和层次聚类的思想,旨在高效地发现数据集中任意形状、不同密度的聚类,并且能够识别嵌套的聚类结构。 BANG算法是一种巧妙…
pprint(Pretty-Printer)是Python标准库中一个用于美化输出复杂数据结构的模块,特别适用于嵌套较深或元素较多的字典、列表、元组等。相比普通的print(),它能自动格式化输出,使其更具可读性。 主要特点 …
CLARANS简介 CLARANS(Clustering Large Applications based on RANdomized Search,基于随机搜索的大规模应用聚类)是一种经典的聚类算法,由Raymond T. Ng和Jiawei Han于1994年提出。它旨在解决当时主流聚类算法…
X-Means 和 G-Means 都是基于 K-Means 的改进算法,主要目标是自动确定最优的聚类数量k,无需人工预先指定。 X-Means X-Means 是一种能够自动确定最佳聚类数量的改进型K-Means算法,它通过统计指标来评估聚类…
PyClustering简介 PyClustering 是一个功能丰富的数据挖掘库,特别专注于聚类分析、振荡网络和神经网络。PyClustering 是一个算法覆盖面广、实现质量高的库,特别在以下方面表现突出: 聚类算法全面性:从经…
scikit-learn-extra简介 scikit-learn-extra 是 scikit-learn 的一个官方扩展工具包,专为提供那些新颖、专用或尚未纳入主库的机器学习算法而设计。它完全兼容 scikit-learn 的 API 规范,让你能在熟悉的生态里,…
ROCK算法概述 ROCK产生背景 传统聚类算法的局限性 20世纪90年代末,随着电子商务、市场篮子分析和生物信息学等领域的快速发展,分类属性和布尔型数据的聚类需求日益凸显。传统聚类方法面临两大挑战: 距…
K-Medians简介 K-Medians 是 K-Means 聚类算法的一种变体,通过使用中位数而非均值来计算聚类中心,从而提升对异常值的鲁棒性。 核心思想 目标函数:最小化每个数据点到其所属聚类中心的曼哈顿距离之…
k-medoids算法概述 k-medoids 是一种基于中心的聚类算法,是 k-means 算法的改进版本。与 k-means 使用簇内数据点的均值作为中心点不同,k-medoids 使用实际数据点作为中心点(称为 medoid)。 与 k-means …