用友iUAP技术讲堂GeoHash算法解

2019-05-15 04:42:30 来源: 湖南信息港

信息检索的过程,排序是非常重要的一个环节,传统的一维数据排序,往往采取B树索引排序,它要求数据类型是可排序的,比如整型、字符串、浮点型数据;而对二维的地理位置,B树索引便无能为力了,GeoHash便是为了解决二维地理位置排序而出现的一套算法技术。

由于二维坐标不可排序,GeoHash解决此问题的思路是将二维数据转换为一维数据。GeoHash将二维的经纬度转换转换为字符串,每个字符串不是代表一个点,而是代表了一个矩形区域,这个矩形区域内的所有点都享有共同的GeoHash位置信息。GeoHash位置有以下4个特点:字符串长度与位置精度对应;字符串相近表示距离相近,这样有利于使用字符串匹配来进行附近信息查询;由于位置表示的是一个矩形区域,有利于隐私信息保护;点在位置所表示的矩形区域内移动,位置信息不变,这样有利于做数据的缓存。

GeoHash仅仅通过一个字符串来表示位置信息,GeoHash字符串的产生是通过肯定的算法计算得来的。GeoHash有多种算法,算法根据空间曲线填充方式来确定。目前常用的几种空间曲线有3种:Peano曲线、Hilbert曲线、Z-order曲线。下面以Peano曲线来说明GeoHash字符串的计算方式,步骤可分为:二进制转换、组码、base32编码。

二进制转换:以GPS坐标(39.928167, 116.389550)来计算。下面是经度的计算步骤:

1)将纬度区间[-90,90]2分为[-90,0),[0,90](称为左右区间),可以确定39.928167属于右区间[0,90],给标记为1;

2)继续将区间[0,90]2分为 [0,45),[45,90],可以肯定39.928167属于左区间 [0,45),给标记为0;

3)递归上述过程,39.928167总是属于某个区间[a,b]。随着每次迭代区间[a,b]总在缩小,并越来越逼近39.928167;给定的纬度x(39.928167)属于左区间,则记录0,如果属于右区间则记录1,这样随着算法的进行会产生一个序列10111 00011,序列的长度跟给定的区间划分次数有关,划分次数依需求精度而定。经度的计算方式与维度类似,产生序列11010 01011。

组码:将维度和经度产生的序列顺次交叉组合,偶数位放经度,奇数位放偶数,生成新的二进制序列:11100 11101 00100 01111。

base32编码:首先将11100 11101 00100 01111转成十进制,对应着28、29、4、15,十进制对应的编码就是wx4g。wx4g既是需要的GeoHash字符串。

GeoHash将二维坐标信息转换成了1维的字符串,实现了距离的排序,可以应用于LBS检索过程。比如检索天安门附近的餐厅,可以先将天安门的坐标转换为GeoHash字符串(w34g6f7k),然后通过数据库模糊来对查询数据的位置信息进行限制(比如SQL可使用like w34g6f%来实现),查询范围可以通过字符串的长度来进行控制,如果要扩大查询范围,则只需去掉末位字符缩短字符串长度。

实际业务中使用GeoHash算法时,可能会出现以下几个问题:

1.由于GeoHash将矩形区域编码为一个字符串,这会导致以矩形边界上的点为中心时,可能距离很近的信息却在不同的矩形区域里。这个问题可以通过手动扩大查找范围来优化。

oHash算法使用了空间填充曲线,这种曲线会导致矩形编码突变,使附近信息查询不能完全依靠模糊匹配进行。这个问题,可以通过手动计算周围8个矩形区域,然后通过匹配来解决。

oHash不能计算距离,这对距离要求较高或要求直接显示距离的业务无能为力,这时候可以将GeoHash视为缩小查询范围的辅助工具,距离的计算采用其他的方式(比如SQL计算)。

白带粘稠用什么药物
产后恶露老是反复怎么办
怎么辨别产后流血
本文标签: