分类: 术→技巧

Streamlit:快速数据可视化界面工具

Streamlit简介 Streamlit是一个基于Python的可视化工具,和其他可视化工具不同的是,它生成的是一个可交互的站点(页面)。但同时它又不是我们常接触的类似Django、Flask这样的WEB框架。当前使用下来的感受: …

机器学习算法之CatBoost

CatBoost是俄罗斯的搜索巨头Yandex在2017年开源的机器学习库,是Gradient Boosting(梯度提升) + Categorical Features(类别型特征),也是基于梯度提升决策树的机器学习框架。 CatBoost简介 CatBoost这个名字…

机器学习算法之LightGBM

上一篇文章介绍了一个梯度提升决策树模型XGBoost,这篇文章我们继续学习一下GBDT模型的另一个进化版本:LightGBM。LigthGBM是boosting集合模型中的新进成员,由微软提供,它和XGBoost一样是对GBDT的高效实现,原理…

机器学习算法之XGBoost

在上一篇Boosting方法的介绍中,对XGBoost有过简单的介绍。为了更还的掌握XGBoost这个工具。我们再来对它进行更加深入细致的学习。 什么是XGBoost? 全称:eXtreme Gradient Boosting 作者:陈天奇(华盛顿…

回归模型评估指标

在建立回归模型时需要对模型的效果进行评测,选择哪一种指标作为评估指标也会影响最终模型的效果。这里选择Scikit Learn自带的回归模型评估指标进行详细讲解。 explained_variance_score(y_true, y_pred) Expl…

数据, 术→技巧 ·

KNN实战:验证码识别

识别验证码的方式很多,如tesseract、SVM等。今天主要学习的是如何使用KNN进行验证码的识别。 数据准备 本次实验采用的是CSDN的验证码做演练,相关的接口:https://download.csdn.net/index.php/rest/tools/valid…

数据, 术→技巧 ·

分类算法评估指标

Confusion Matrix 混淆矩阵 在机器学习领域,混淆矩阵(confusion matrix),又称为可能性表格或是错误矩阵。它是一种特定的矩阵用来呈现算法性能的可视化效果,通常是监督学习(非监督学习,通常用匹配矩阵:matc…

机器学习算法之K-近邻(KNN)

什么是K-近邻算法? K近邻法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法。它的工作原理是:存在一个样本数据集合,也称作为训练样本集,并且样本集中每个数据都存在标签,…

Folium绘制Choropleth分级着色图

上一篇Folium的文章中,针对Choropleth的使用有过简单的介绍,但是对于如何调整分级样式图等,没有进一步的阐述。这篇文章结果自己的使用经验做些简单的总结。 生成Choropleth分级着色图的方法目前主要有两种,…

机器学习聚类算法之HDBSCAN

先前的文章中介绍了基于密度的聚类方法DBSCAN,今天要学习的是HDBSCAN。单从名字上看,两者必然存在一定的关系。我们先来看看官方的介绍: HDBSCAN - Hierarchical Density-Based Spatial Clustering of Applicati…