标签:短文本匹配

短文本匹配实战:重复POI识别

项目需求 去除从地图网站抓取的POI数据中的重复数据。示例数据如下: 思考逻辑 POI去重问题,并非简单的文本匹配,按照编辑距离去做,可能会走到沟里去。 不同地方有相同名字的POI点,如: 行政管理…

数据, 术→技巧 ·

腾讯短文本匹配实践:公司名称匹配

项目背景 项目需要把两个独立的系统通过公司名称的匹配来实现数据打通,其中一个系统的公司数有40万+,另一个系统中需要匹配的公司数3600+,如果直接通过SQL LIKE形式的方式来关联两个系统,发现只有1100多家公司…

数据, 术→技巧 ·