分类: 数据

经纬度与坐标系转换

WGS-84坐标系 通常,我们所说的地球地理经纬度是WGS-84坐标系(World Geodetic System-1984 Coordinate System)的经纬度。WGS-84坐标系是在1984年制定的全球坐标系,这个坐标系上的每一点经纬度能够精确映射到地…

数据, 术→技巧, 研发 ·

经纬度转城市反地理查询系统搭建

想知道某个经纬度属于哪个城市,通常可以通过地图API的接口实现。但是地图服务商的API通常会有配额限制。问题来了,能否搭建自己的经纬度反查系统呢? GADM GADM主页:https://gadm.org/ GADM,全称Databa…

数据, 术→技巧, 研发 ·

中国行政区划边界GeoJSON数据

行政区划相关信息在GIS中算是不可或缺的基础数据,然而由于行政区划经常会进行调整,所以许多网上搜集的已经存在了不同程度的过时。国外的数据,又会有领土的问题。DataV是阿里云出品的拖拽式可视化工具,专精于业…

数据, 术→技巧 ·

腾讯短文本匹配实践:公司名称匹配

项目背景 项目需要把两个独立的系统通过公司名称的匹配来实现数据打通,其中一个系统的公司数有40万+,另一个系统中需要匹配的公司数3600+,如果直接通过SQL LIKE形式的方式来关联两个系统,发现只有1100多家公司…

数据, 术→技巧 ·

条件随机场CRF及CRF++安装与使用

条件随机场(conditional random field, CRF)是用来标注和划分序列结构数据的概率化结构模型。言下之意,就是对于给定的输出,标识序列Y和观测序列X,条件随机场通过定义条件概率P(Y|X),而不是联合概率分布P(X, Y)…

最小熵原理确认词向量维度

随着 NLP 的发展,像 Word2Vec、Glove 这样的词向量模型,正逐渐地被基于 Transformer 的 BERT 等模型代替,不过经典始终是经典,词向量模型依然在不少场景发光发热,并且仍有不少值得我们去研究的地方。本文来关心…

Python中文简繁繁简转换

中文繁体、简体的差异,在NPL中类似英文中的大小写,但又比大小写更为复杂,比如同样为繁体字,大陆、香港和台湾又不一样。 OpenCC(Open Chinese Convert) OpenCC是一个开源的中文繁简转化项目,支持词汇级…

数据, 术→技巧 ·

Python字符串模糊匹配库FuzzyWuzzy

在计算机科学中,字符串模糊匹配(fuzzy string matching)是一种近似地(而不是精确地)查找与模式匹配的字符串的技术。换句话说,字符串模糊匹配是一种搜索,即使用户拼错单词或只输入部分单词进行搜索,也能够找…

数据, 术→技巧 ·

航空公司客户价值分析模型LRFCM

谈到用户分类模型,最被谈及的应该就是RFM模型了。大部分人常把RFM模型挂在嘴边,而在实际使用中的却很难真正的利用起来。这里暂时不去讨论RFM是好是坏。今天的介绍的是另外一个拓展的模型:航空公司客户价值分析模…

数据, 术→技巧, 运营 ·

Python获取照片Exif信息

什么是Exif? Exif(Exchangeable image file format)是专门为数码相机的照片设定的,可以记录数码照片的属性信息和拍摄数据。Exif信息是镶嵌在 JPEG/TIFF 图像文件格式内的一组拍摄参数,它就好像是傻瓜相机的日…

数据, 术→技巧, 研发 ·