空间索引之GeoHash

文章内容如有错误或排版问题，请提交反馈，非常感谢！

Geohash简介

Geohash是一种地址编码，它能把二维的经纬度编码成一维的字符串。比如，北海公园的编码是wx4g0ec1。

Geohash有以下几个特点：

Geohash用一个字符串表示经度和纬度两个坐标。在数据存储时可以简化为只为一列做索引。
Geohash表示的并不是一个点，而是一个矩形区域。使用者可以发布地址编码，既能表明自己大致位置，又不至于暴露自己的精确坐标，有助于隐私保护。
Geohash编码的前缀可以表示更大的区域。例如wx4g0ec1，它的前缀wx4g0e表示包含编码wx4g0ec1在内的更大范围。这个特性可以用于附近地点搜索。

Geohash算法实现

GeoHash是一种对地理坐标进行编码的方法，它将二维坐标映射为一个字符串。每个字符串代表一个特定的矩形，在该矩形范围内的所有坐标都共用这个字符串。字符串越长精度越高，对应的矩形范围越小。对一个地理坐标编码时，按照初始区间范围纬度[-90,90]和经度[-180,180]，计算目标经度和纬度分别落在左区间还是右区间。落在左区间则取0，右区间则取1。然后，对上一步得到的区间继续按照此方法对半查找，得到下一位二进制编码。当编码长度达到业务的进度需求后，根据”偶数位放经度，奇数位放纬度”的规则，将得到的二进制编码穿插组合，得到一个新的二进制串。最后，根据base32的对照表，将二进制串翻译成字符串，即得到地理坐标对应的目标GeoHash字符串。

Geohash的最简单的解释就是：将一个经纬度信息，转换成一个可以排序，可以比较的字符串编码。

维度拆解

首先将纬度范围(-90,90)平分成两个区间(-90,0)、(0,90)，如果目标纬度位于前一个区间，则编码为0，否则编码为1。然后再将(0,90)分成(0,45),(45,90)两个区间，以此类推，直到精度符合要求为止，得到纬度39.92324编码为10111000110001111001。

经度拆解

经度也用同样的算法，对(-180,180)依次细分，得到116.3906的编码为11010010110001000100。

解码算法与编码算法相反，先进行base32解码，然后分离出经纬度，最后根据二进制编码对经纬度范围进行细分即可。

上文讲了GeoHash的计算步骤，仅仅说明是什么而没有说明为什么？为什么分别给经度和维度编码？为什么需要将经纬度两串编码交叉组合成一串编码？

如图所示，我们将二进制编码的结果填写到空间中，当将空间划分为四块时候，编码的顺序分别是左下角00，左上角01，右下脚10，右上角11，也就是类似于Z的曲线，当我们递归的将各个块分解成更小的子块时，编码的顺序是自相似的（分形），每一个子快也形成Z曲线，这种类型的曲线被称为Peano空间填充曲线。

这种类型的空间填充曲线的优点是将二维空间转换成一维曲线（事实上是分形维），对大部分而言，编码相似的距离也相近，但Peano空间填充曲线最大的缺点就是突变性，有些编码相邻但距离却相差很远，比如0111与1000，编码是相邻的，但距离相差很大。

除Peano空间填充曲线外，还有很多空间填充曲线，如图所示，其中效果公认较好是Hilbert空间填充曲线，相较于Peano曲线而言，Hilbert曲线没有较大的突变。为什么GeoHash不选择Hilbert空间填充曲线呢？可能是Peano曲线思路以及计算上比较简单吧，事实上，Peano曲线就是一种四叉树线性编码方式。

经纬度合并

接下来将经度和纬度的编码合并，奇数位是纬度，偶数位是经度，得到编码1110011101001000111100000011010101100001。最后，用0-9、b-z（去掉a,i,l,o）这32个字母进行base32编码，得到(39.92324,116.3906)的编码为wx4g0ec1。

Geohash的精度

Geohash算法的主要思想是对某一数字通过二分法进行无限逼近。显然的是，不可能让计算机执行无穷计算，加入执行N次计算，则x属于的区间长度为(b-a)/2N+1,以纬度计算为例，则为180/2N，误差近似计算为:err=180/2N+1=90/2N,如果N=20，则误差最大为：0.00009。但无论如何这样表明Geohash是一种近似算法。

Geohash长度对应的精度误差：

由于GeoHash是将区域划分为一个个规则矩形，并对每个矩形进行编码，每个精度等级对应的规则矩形大小为：

Geohash的应用点

geohash的最大用途就是附近地址搜索了。不过，从geohash的编码算法中可以看出它的一个缺点：位于格子边界两侧的两点，

虽然十分接近，但编码会完全不同。实际应用中，可以同时搜索当前格子周围的8个格子，即可解决这个问题。

GeoHash工具整理

python-geohash

项目地址：

官方没有说明文档，以下为使用示例：

import geohash

print(geohash.encode(30.723514, 104.123245, precision=5)) # wm6nc
print(geohash.decode("wm6nc")) # (30.73974609375, 104.12841796875) # 中心经纬度
print(geohash.decode("wm6nc", delta=True)) # (30.73974609375, 104.12841796875, 0.02197265625, 0.02197265625) # 中心及偏差
print(geohash.decode_exactly("wm6nc")) # (30.73974609375, 104.12841796875, 0.02197265625, 0.02197265625)
print(geohash.bbox("wm6nc")) # {'s': 30.7177734375, 'w': 104.1064453125, 'n': 30.76171875, 'e': 104.150390625}
print(geohash.neighbors("wm6nc")) # ['wm6nb', 'wm6nf', 'wm6n9', 'wm6n8', 'wm6nd', 'wm6p1', 'wm6p0', 'wm6p4']
print(geohash.expand("wm6nc")) # ['wm6nb', 'wm6nf', 'wm6n9', 'wm6n8', 'wm6nd', 'wm6p1', 'wm6p0', 'wm6p4', 'wm6nc']

Geohash

项目地址：

使用示例：

import Geohash

print(Geohash.encode(30.723514, 104.123245, precision=5)) # wm6nc
print(Geohash.decode("wm6nc")) # (30.73974609375, 104.12841796875)
print(Geohash.decode("wm6nc", delta=True)) # (30.73974609375, 104.12841796875, 0.02197265625, 0.02197265625)
print(Geohash.decode_exactly("wm6nc")) # (30.73974609375, 104.12841796875, 0.02197265625, 0.02197265625)

geohash2

项目地址：

使用示例：

import geohash2

print(geohash2.encode(30.723514, 104.123245, precision=5)) # wm6nc
print(geohash2.decode("wm6nc")) # ('30.7', '104.1')
print(geohash2.decode_exactly("wm6nc")) # (30.73974609375, 104.12841796875, 0.02197265625, 0.02197265625)
print(geohash2.encode(30.7, 104.1, precision=5)) # wm6n8

从上面的数据可以看到 decode 后获取的不是中心点的坐标，而是对坐标进行了精度的调整，导致上述问题，所以不推荐使用。

geolib

项目地址：

from geolib import geohash

print(geohash.encode(30.723514, 104.123245, precision=5)) # wm6nc
print(geohash.decode("wm6nc")) # Point(lat=Decimal('30.73974609375'), lon=Decimal('104.12841796875'))
print(geohash.bounds(
"wm6nc")) # Bounds(sw=SouthWest(lat=30.7177734375, lon=104.1064453125), ne=NorthEast(lat=30.76171875, lon=104.150390625))
print(geohash.neighbours(
"wm6nc")) # Neighbours(n='wm6p1', ne='wm6p4', e='wm6nf', se='wm6nd', s='wm6n9', sw='wm6n8', w='wm6nb', nw='wm6p0')
print(geohash.adjacent("wm6nc", 'n')) # wm6p1

ProximityHash

ProximityHash 生成一组覆盖圆形区域的地理 HASH，给定中心坐标和半径。它还可以使用 GeoRaptor 创建不同级别的 geohash 的最佳组合来表示圆，从最高级别开始迭代，直到绘制出最佳混合。结果精度与初始 geohash 级别的精度相同，但数据大小大大减小，从而提高了速度和性能。

项目地址：

georaptor

GeoRaptor 通过从最高级别开始迭代直到绘制出最佳混合，创建跨不同级别的 geohash 的最佳组合来表示多边形。结果精度与初始 geohash 级别相同，但对于大型多边形，数据大小会显著减小，从而提高速度和性能。

项目地址：

其他项目

https://github.com/tammoippen/geohash-hilbert

https://github.com/kylebebak/py-geohash-any

GEOHASH的可视化

参考项目：

Geohash实战：与商圈高效匹配

项目背景

闲鱼app根据交通条件、商场分布情况、住宅区分布情况综合考虑，将城市划分为一个个商圈。杭州部分区域商圈划分如下图所示：

闲鱼的商品是由用户发布的GPS随机分布在地图上的点数据。当用户处于某个商圈范围内时，app会向用户推荐GPS位于此商圈中的商品。要实现精准推荐服务，就需要计算出哪些商品是归属于你所处的商圈。

在数据库中，商圈是由多个点围成的面数据，这些面数据形状、大小各异，且互不重叠。商品是以GPS标记的点数据，如何能够快速高效地确定海量商品与商圈的归属关系呢？传统而直接的方法是，利用几何学的空间关系计算公式对海量数据实施直接的”点—面”关系计算，来确定每一个商品是否位于每一个商圈内部。

闲鱼目前有10亿商品数据，且每天还在快速增加。全国所有城市的商圈数量总和大约为1万，每个商圈的大小不一，边数从10到80不等。如果直接使用几何学点面关系运算，需要的计算量级约为2亿亿次基本运算。按照这个思路，我们尝试过使用阿里巴巴集团内部的离线计算集群来执行计算，结果集群在运行了超过2天之后也未能给出结果。

面数据GeoHash编码

标准GeoHash算法只能用来计算二维点坐标对应的GeoHash编码，现实场景中还需要计算面数据（即GIS中的POLYGON多边形对象）对应的GeoHash编码，需要扩展算法来实现。算法思路：

找到目标Polygon的最小外接矩形MBR，计算此MBR西南角坐标对应的GeoHash编码。
用GeoHash编码的逆算法，反解出此编码对应的矩形GeoHash块
以此GeoHash块为起点，循环往东、往北找相邻的同等大小的GeoHash块，直到找到的GeoHash块完全超出MBR的范围才停止。

如此找到的多个GeoHash块，边缘上的部分可能与目标Polygon完全不相交，这部分块需要通过计算剔除掉，如此一来可以减少后续不必要的计算量。

上面的例子中最终得到的结果高清大图如下，其中蓝色的GeoHash块是与原始Polygon部分相交的，橘黄色的GeoHash块是完全被包含在原始Polygon内部的。

上述算法总结成流程图如下：

临近GeoHash块的快速算法

上一节对面数据进行GeoHash编码的流程图中标记为绿色和橘黄色的两步，分别是要寻找相邻的东边或北边的GeoHash字符串。传统的做法是，根据当前GeoHash块的反解信息，求出相邻块内部的一点，在对这个点做GeoHash编码，即为相邻块的GeoHash编码。如下图，我们要计算”wtmk72″周围的8个相邻块的编码，就要先利用GeoHash逆算法将”wtmk72″反解出4个顶点的坐标N1、N2、N3、N4，然后由这4个坐标计算出右侧邻接块内部的任意一点坐标N5，再对N5做GeoHash编码，得到的”wtmk78″就是我们要求的右边邻接块的编码。按照同样的方法，求可以求出”wtmk72″周围总共8个邻接块的编码。

这种方法需要先解码一次再编码一次，比较耗时，尤其是在指定的GeoHash字符串长度较长需要循环较多次的情况下。

通过观察GeoHash编码表的规律，结合GeoHash编码使用的Z阶曲线的特性，验证了一种通过查表来快速求相邻GeoHash字符串的方法。还是以”wtmk72″这个GeoHash字符串为例，对应的10进制数是”28，25，19，18，7，2″，转换成二进制就是111001100110011100100011100010。其中，w对应11100，这5个二进制位分别代表”经纬经纬经”；t对应11001，这5个二进制位分别代表”纬经纬经纬”。由此推广开来可知，GeoHash中的奇数位字符（本例中的’w’、’m’、’7’）代表的二进制位分别对应”经纬经纬经”，偶数位字符（本例中的’t’、’k’、’2’）代表的二进制位分别对应”纬经纬经纬”。’w’的二进制11100，转换成方位含义就是”右上右下左”。’t’的二进制11001，转换成方位含义就是”上右下左上”。根据这个字符与方位的转换关系，我们可以知道，奇数位上的字符与位置对照表如下：

偶数位上的字符与位置对照表如下：

这里可以看到一个很有意思的现象，奇数位的对照表和偶数位对照表存在一种转置和翻转的关系。有了以上两份字符与位置对照表，就可以快速得出每个字符周围的8个字符分别是什么。而要计算一个给定GeoHash字符串周围8个GeoHash值，如果字符串最后一位字符在该方向上未超出边界，则前面几位保持不变，最后一位取此方向上的相邻字符即可；如果最后一位在此方向上超出了对照表边界，则先求倒数第二个字符在此方向上的相邻字符，再求最后一个字符在此方向上相邻字符（对照表环状相邻字符）；如果倒数第二位在此方向上的相邻字符也超出了对照表边界，则先求倒数第三位在此方向上的相邻字符。以此类推。

以上面的”wtmk72″举例，要求这个GeoHash字符串的8个相邻字符串，实际就是求尾部字符’2’的相邻字符。’2’适用偶数对照表，它的8个相邻字符分别是’1’、’3’、’9’、’0’、’8’、’p’、’r’、’x’，其中’p’、’r’、’x’已经超出了对照表的下边界，是将偶数位对照表上下相接组成环状得到的相邻关系。所以，对于这3个超出边界的”下方”相邻字符，需要求倒数第二位的下方相邻字符，即’7’的下方相邻字符。’7’是奇数位，适用奇数位对照表，’7’在对照表中的”下方”相邻字符是’5’，所以”wtmk72″的8个相邻GeoHash字符串分别是”wtmk71″、”wtmk73″、”wtmk79″、”wtmk70″、”wtmk78″、”wtmk5p”、”wtmk5r”、”wtmk5x”。利用此相邻字符串快速算法，可以大大提高上一节流程图中面数据GeoHash编码算法的效率。

建立海量点数据与面数据的关系

建立海量点数据与面数据的关系的思路是，先将需要匹配的商品GPS数据（点数据）、商圈AOI数据（面数据）按照前面所述的算法，分别计算同等长度的GeoHash编码。每个点数据都对应唯一一个GeoHash字符串；每个面数据都对应一个或多个GeoHash编码，这些编码要么是”完全包含字符串”，要么是”部分包含字符串”。

将每个商品的GeoHash字符串与商圈的”完全包含字符串”进行join操作。join得到的结果中出现的<商品,商圈>数据就是能够确定的”某个商品属于某个商圈”的关系。
对于剩下的还未被确定关系的商品，将这些商品的GeoHash字符串与商圈的”部分包含字符串”进行join操作。join得到的结果中出现的<商品,商圈>数据是有可能存在的”商品属于某个商圈”的关系，接下来对这批数据中的商品gps和商圈AOI数据进行几何学关系运算，进而从中筛选出确定的”商品属于某个商圈”的关系。

如图：

商品1的点数据GeoHash编码为”wtmk70j”，与面数据的”完全包含字符串wtmk70j”join成功，所以可以直接确定商品1属于此面数据。
商品2的点数据GeoHash编码为”wtmk70r”，与面数据的”部分包含字符串wtmk70r”join成功，所以商品2疑似属于面数据，具体是否存在包含关系，还需要后续的点面几何学计算来确定。
商品3的点数据GeoHash编码与面数据的任何GeoHash块编码都匹配不上，所以可以快速确定商品3不属于此面数据。

实际应用中，原始的海量商品GPS范围散布在全国各地，海量商圈数据也散布在全国各个不同的城市。经过a)步骤的操作后，大部分的商品数据已经确定了与商圈的从属关系。剩下的未能匹配上的商品数据，经过b)步骤的GeoHash匹配后，可以将后续”商品-商圈几何学计算”的运算量从”1个商品x全国所有商圈”笛卡尔积的量级，降低为”1个商品x1个（或几个）商圈”笛卡尔积的量级，减少了绝大部分不必要的几何学运算，而这部分运算是非常耗时的。

在闲鱼的实际应用中，10亿商品和1万商圈数据，使用本文的快速算法，只需要10亿次GeoHash点编码+1万次GeoHash面编码+500万次”点是否在面内部”几何学运算，粗略换算为基本运算需要的次数约为1800亿次，运算量远小于传统方法的2亿亿次基本运算。使用阿里巴巴的离线计算平台，本文的算法在不到一天的时间内就完成了全部计算工作。

另外，对于给定的点和多边形，通过几何学计算包含关系的算法不止一种，最常用的算法是射线法。简单来说，就是从这个点出发做一条射线，判断该射线与多边形的交点个数是奇数还是偶数。如果是奇数，说明点在多边形内；否则，点在多边形外。

延伸

面对海量点面数据的空间关系划分，本文采用是的通过GeoHash来降低计算量的思路，本质上来说是利用了空间索引的思想。事实上，在GIS领域有多种实用的空间索引，常见的如R树系列（R树、R+树、R*树）、四叉树、K-D树、网格索引等，这些索引算法各有特点。本文的思路不仅能用来处理点—面关系的相关问题，还可以用来快速处理点—点关系、面—面关系、点—线关系、线—线关系等问题，比如快速确定大范围类的海量公交站台与道路的从属关系、多条道路或铁路是否存在交点等问题。

问题与疑问

10亿条商品和1万条商圈数据做匹配，如果是我，我会怎么做？我会将商品和商圈先划分城市，再通过城市间匹配减少匹配量。暂时不清楚为什么阿里不采用此方案。

参考资料：

空间索引之GeoHash

Geohash简介

Geohash算法实现

维度拆解

经度拆解

经纬度合并

Geohash的精度

Geohash的应用点

GeoHash工具整理

python-geohash

Geohash

geohash2

geolib

ProximityHash

georaptor

其他项目

GEOHASH的可视化

Geohash实战：与商圈高效匹配

项目背景

面数据GeoHash编码

临近GeoHash块的快速算法

建立海量点数据与面数据的关系

延伸

问题与疑问

国内外编程OJ网站整理

移动端自动化测试工具Appium

App Store 应用内购买（IAP）完全指南

发表回复取消回复

空间索引之GeoHash

Geohash简介

Geohash算法实现

维度拆解

经度拆解

经纬度合并

Geohash的精度

Geohash的应用点

GeoHash工具整理

python-geohash

Geohash

geohash2

geolib

ProximityHash

georaptor

其他项目

GEOHASH的可视化

Geohash实战：与商圈高效匹配

项目背景

面数据GeoHash编码

临近GeoHash块的快速算法

建立海量点数据与面数据的关系

延伸

问题与疑问

国内外编程OJ网站整理

移动端自动化测试工具Appium

App Store 应用内购买（IAP）完全指南

发表回复 取消回复

发表回复取消回复