分类: 数据

DBSCAN经纬度聚类实践

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) 是一种常用于聚类分析的算法,它可以很好地应用于经纬度数据的聚类。这种算法特别适合处理大规模的空间数据集,并且能够识别出噪声点。在先…

数据, 术→技巧 ·

数据预处理之分箱

什么是分箱? 数据分箱(Data Binning)是一种数据预处理技术,用于将连续变量分组为一系列“箱”或“区间”,以便于分析。其实分箱的概念其实很好理解,它的本质上就是把数据进行分组。分箱就是把数据按特定的规则进…

数据, 术→技巧 ·

使用ELK监控Nginx日志

在先前的文章中介绍了使用Python解析Nginx日志,今天主要介绍的是使用ELK(Elasticsearch + Logstash + Kibana)来监控Nginx日志。 备注:以下方案占用CPU和内存过大,不适合在云服务器部署。 工具简介 本…

数据, 术→技巧, 运维 ·

使用scipy.optimize寻找函数最优解

scipy.optimize简介 scipy.optimize 是 Python 中 SciPy 库的一个模块,专门用于数学优化。这个模块包含了一系列的函数和算法,用于求解最小化(或最大化)问题、方程组的根、以及执行曲线拟合。这些功能对于科学…

Pandas基础教程之替换SQL

对于很多数据分析的同学来说,最熟悉的莫过于SQL(相关SQL教程见产品&运营分析技能培训:Hive SQL),针对数据处理问题,脑海里的第一反应也往往都是SQL,而在日常的工作中往往也需要在Pandas的DataFrame数据上…

数据, 术→技巧 ·

使用Optuna优化LightGBM超参数

在先前的文章,已经很详细的介绍了LightGBM的原理及使用示例。模型的安装与调用本身不会遇到很大的问题,实际使用过程中遇到的最大难题是如何优化超参数。由于没有进行很好的超参数优化导致产生的模型性能存在欠缺…

数据, 术→技巧 ·

Python爬虫工具之Selenium

Selenium简介 Selenium是浏览器的自动化测试工具,与浏览器进行交互,实现对web应用的自动化测试,Selenium包括Selenium IDE, Selenium Webdriver 和 Selenium Grid三个工具。 Selenium IDE (Integrated Deve…

数据, 术→技巧, 研发 ·

使用Optuna优化XGBoost超参数

在之前的文章中,分别介绍了决策树模型XGBoost和贝叶斯优化工具Optuna,在实际使用中还是会多多少少遇到一些问题。今天文章主要针对Optuna优化XGBoost做下梳理。 XGBoost的目标函数 XGBoost提供了多种内置的目标…

数据, 术→技巧 ·

Scikit-Learn学习之管道Pipeline

Scikit-Learn的Pipeline是一个工具,可以将多个数据预处理和建模步骤连接起来,形成一个完整的机器学习工作流。它允许用户通过链式执行多个转换步骤并最终拟合一个模型,从而使代码更加简洁。下面我们将详细介绍Pip…

数据, 术→技巧 ·

机器学习可解释性工具:SHAP

机器学习在很多领域取得了重要的进步,也帮助人减少了不少体力劳动。要训练一个机器学习模型,以及将模型应用在实际场景中,最重要的是数据的收集以及处理。那么,如何使用模型指导数据收集就成了一个重要的问题,…