DBSCAN (Density-Based Spatial Clustering of Applications with Noise) 是一种常用于聚类分析的算法,它可以很好地应用于经纬度数据的聚类。这种算法特别适合处理大规模的空间数据集,并且能够识别出噪声点。在先…
曾经一个研发大佬说过这样一句话,大概意思是只要你把需求整理出来,研发就能实现。我想对他说,能否帮忙生成一个随机数? 我们接触到的计算机生成的随机数其实都是都称为“伪随机数”。计算机本质上是确定性的,…
什么是分箱? 数据分箱(Data Binning)是一种数据预处理技术,用于将连续变量分组为一系列“箱”或“区间”,以便于分析。其实分箱的概念其实很好理解,它的本质上就是把数据进行分组。分箱就是把数据按特定的规则进行…
在先前的文章中介绍了使用Python解析Nginx日志,今天主要介绍的是使用ELK(Elasticsearch + Logstash + Kibana)来监控Nginx日志。 备注:以下方案占用CPU和内存过大,不适合在云服务器部署。 工具简介 本教程涉…
Nginx是一种广泛使用的开源web服务器,它以其高性能、稳定性和低资源消耗而闻名。nginxconfig.io提供了一个用户友好的界面,使用户能够通过简单的图形界面生成和自定义Nginx服务器配置。 通过这个工具,用户可以…
scipy.optimize简介 scipy.optimize是Python中SciPy库的一个模块,专门用于数学优化。这个模块包含了一系列的函数和算法,用于求解最小化(或最大化)问题、方程组的根、以及执行曲线拟合。这些功能对于科学计算、…
最近看了眼Nginx的日志,发现个人博客的日志上有很多爬虫在抓数据,还有在扫描漏洞的,搞不明白普普通通的一个个人博客得罪了谁。于是决定做一个简单的Nginx日志解析工具来稍微分析下数据。 Nginx的格式 Nginx日志…
高铁(包括G、D字头列车和一部分C字头列车)票价的计算是一个比较复杂的问题。它取决于线路的速度等级、里程、递远递减以及折扣等方面。 注意: 以下的讨论均不包含既有线动车组以及除京津城际线以外的城际铁路…
对于很多数据分析的同学来说,最熟悉的莫过于SQL(相关SQL教程见产品&运营分析技能培训:HiveSQL),针对数据处理问题,脑海里的第一反应也往往都是SQL,而在日常的工作中往往也需要在Pandas的DataFrame数据上…
很早之前就申请了微信公众号,写了几篇就中断了,主要原因是微信提供的公众号不太适合写技术类的文章,比如添加代码片段或LATEX数学公式等。 针对LATEX数学公式的支持我看反馈论坛上已经提了5~6年了就是没有实现…