All Stories

使用feature Importance进行特征选择

在前一篇机器学习之特征选择的文章中讲到了树模型中GBDT也可用来作为基模型进行特征选择。今天在此基础上进行拓展

Pandas与数据库的交互(以SQLite为例)

在使用Python进行数据分析的时候,通常用的最多的是Pandas,但是部分数据存储在数据库中,如何更方便的与

Pandas学习笔记之分组统计

Pandas中的统计函数 随机生成三组数据用于测试:

OpenStreetMap数据的获取与使用

OpenStreetMap数据简介 OpenStreetMap,简称OSM,是一个开源的世界地图,可依据开放许

数据可视化之箱形图

箱形图简介 箱形图(英文:Box plot),又是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名

GeoHash网格化工具整理

最近在做基于经纬度网格化的相关研究,网格化划分直接使用的是Geohash。你可以将Geohash流程简单的理解

1:100万全国基础地理数据库

上一篇反地理查询系统中我们讲到GADM提供的数据时不符合我国的领土主张的。今天要介绍的这份数据是《1:100万

搭建自己的反地理查询系统

想知道某个经纬度属于哪个城市,通常可以通过地图API的接口实现。但是地图服务商的API通常会有配额限制。问题来

瓦片坐标系学习笔记

最近抓取了部分百度地图的数据,中间的数据使用的是瓦片经纬度。由于先前对这方面知识没有接触过。今天抽时间整理下,

美团HOS信息整理

HOS(全称Hotel Operation System)体系是美团酒店于2016年推出的酒店商家综合运营能力

GeoHash与商圈高效匹配

最近在研究商圈相关的数据分析,遇到的最大的麻烦是商圈数据的缺失。核心的原因是的没有一份完善的商圈数据。这里先不

信息熵在会员营销中的应用思考

在短信营销场景中,常常会遇到有些用户你给他发多少条促销短信他都无动于衷。针对这样的情况,通常我们会将这类用户称