ElasticSearch 实现经纬度附近搜索

!文章内容如有错误或排版问题，请提交反馈，非常感谢！

ElasticSearch除了支持文本检索外，还支持地理信息检索。它主要支持两种类型的地理查询：一种是地理点(geo_point)，即经纬度查询，另一种是地理形状查询(geo_shape)，即支持点、线、圈、多边形查询等。

ElasticSearch实现经纬度附近搜索

1、创建映射(mapping)

import requests
import json
attractions_url = "http://localhost:9200/attractions?include_type_name=true"
data = {
"mappings": {
"hotel": {
"properties": {
"name": {
"type": "text"
},
"location": {
"type": "geo_point"
}
}
}
}
}

json_data = json.loads(json.dumps(data))
r = requests.put(url=attractions_url, json=json_data)
print(r.status_code)
print(r.text)

对于某些特殊的查询，例如矩形范围查询，可以通过分别对lat和lon进行索引以提高查询速度。因为矩形范围的查询完全可以先通过lat过滤，再通过lon过滤。要实现此功能只需在location节点下添加”lat_lon”:true即可。

2、添加数据（插入文档）

import requests
import json
import pandas as pd
f = pd.read_csv("data.csv")
for index, row in df.iterrows():
url = "http://localhost:9200/attractions/hotel/{0}".format(index)
data = {"name": str(int(row['hotel_id'])), "location": {"lat": row['lat'], "lon": row['lon']}}
json_data = json.loads(json.dumps(data))
r = requests.put(url, json=json_data)

插入文档时，有三种格式的属性可以被映射为geo_point类型：

string：格式为lat,lon
double[]：格式为[lon,lat]
json：格式为{“lat”:lat,”lon”:lon}

注意：数组格式是lon在前，lat在后，而字符串格式正好相反。

3、查询

Elasticsearch的地理位置查询，实际是使用过滤器对所有文档进行过滤。它支持以下四种查询方式：

geo_bounding_box：查询矩形范围内的点
geo_distance：查询中心点距离范围内的点
geo_distance_range：查询中心点最小距离和最大距离之间的点
geo_polygon：查询多边形范围内的点（不推荐使用）

以下为通过中心点距离范围内的示例：

import requests
import json
url = "http://localhost:9200/attractions/hotel/_search"
lat, lon = 34.514020, 113.191598
data = {
"query": {
"bool": {
"must": {
"match_all": {}
},
"filter": {
"geo_distance": {
"distance": "10km",
"location": {
"lat": lat,
"lon": lon
}
}
}
}
},"sort": [
{
"_geo_distance": {
"location": [
{
"lat": lat,
"lon": lon
}
],
"unit": "m",
"distance_type": "arc",
"order": "asc",
"validation_method": "STRICT"
}
}
]
}
json_data = json.loads(json.dumps(data))
r = requests.get(url, json=json_data)

除了中心点和距离，我们还需要指定计算距离的方式，每种方式对应着不同的精度和计算速度，常用的有三种：

arc：最慢但最精确的是arc计算方式，这种方式把世界当作球体来处理。不过这种方式的精度有限，因为这个世界并不是完全的球体。
plane：plane计算方式把地球当成是平坦的，这种方式快一些但是精度略逊。在赤道附近的位置精度最好，而靠近两极则变差。
sloppy_arc：如此命名，是因为它使用了Lucene的SloppyMath类。这是一种用精度换取速度的计算方式，它使用Haversine formula来计算距离。它比arc计算方式快4到5倍，并且距离精度达9%。这也是默认的计算方式。

对于大部分应用来说，plane的精度已经足够了，并且速度是最快的，所以推荐使用它。

ElasticSearch按距离打分的配置

ElasticSearch除了按照距离排序外，还支持按距离打分并且与其他评分一起应用。

有三种衰减函数：linear、exp和gauss（线性、指数和高斯函数），它们可以操作数值、时间以及经纬度地理坐标点这样的字段。所有三个函数都能接受以下参数：

Origin：中心点或字段可能的最佳值，落在原点origin上的文档评分_score为满分0。
Scale：衰减率，即一个文档从原点origin下落时，评分_score改变的速度。
Decay：从原点origin衰减到scale所得的评分_score，默认值为5。
Offset：以原点origin为中心点，为其设置一个非零的偏移量offset覆盖一个范围，而不只是单个原点。在范围-offset<=origin<=+offset内的所有评分_score都是0。

这三个函数的唯一区别就是它们衰减曲线的形状，用图来说明会更为直观：