黑客马拉松 (Hackathon):POI去重记录

10月24日参加了公司举办的黑客马拉松,我们选的题目是POI的去重。给到的数据格式如下:

目标是去重重复数据。组委会一开始给了训练集数据,对这部分数据进行了分析,发现给到的数据错漏百出:

从结果看,此部分所谓的训练数据并非人工整理,而是仅对POI名称按城市做了相似度的计算得出。基于此,只能朝着非监督学习的方向进行尝试。

思考逻辑

POI去重问题,并非简单的文本匹配,按照编辑距离去做,可能会走到沟里去。

1、不同地方有相同名字的POI点,如:

  • 行政管理中心
  • 人民桥
  • 中央公园

解决方案:通过经纬度限定区域,在限定区域内找出重复POI。初步方案用geohash的精度做区域限定。

选定的精度是5,如果担心出现边界问题,可采用缩放精度解决。

2、相同区域内,可能存在两个极为相似的POI点,如:

  • 苏州工业园区第七中学
  • 苏州工业园区第八中学

解决方案:分词后计算TF-IDF,给予每个词不同权重后进行比较。

代码实现

按区域进行匹配示例:

每个POI分词后的TF-IDF:

最终结果:

微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

Python检验数据是否正态分布

判断数据是否符合正态分布,比如使用3-sigma判断数据异常前,首先需要确定的是数据是否符合正态分布。今天一起

数据探索Pandas-Profiling与Dataprep.…

在使用数据前,我们首先要做的事观察数据,包括查看数据的类型、数据的范围、数据的分布等。Pandas-Profi

开源指标可视化工具Graphite

Graphite 是处理可视化和指标数据的优秀开源工具。它有强大的查询 API 和相当丰富的插件功能设置。事实

发表评论

电子邮件地址不会被公开。 必填项已用*标注