论文部分内容阅读
随着互联网技术与计算机技术的飞速发展,网络信息中涉及的地理信息内容越来越多,并逐渐呈现出一种指数爆炸增长趋势,成为地理信息获取与更新的重要的途径。互联网信息中的地理信息与其他网页内容一样,以文本的形式存在,非结构性化特征使这些信息不容易被机器自动识别提取出来,无法作为GIS重要数据源进行进一步的统计和分析,同时海量互联网网页文本中也不乏存在一些泄露国家机密、危害国家安全的地理信息数据,互联网中存在的海量地理信息要素数据亟需被自动提取出来并转换为具有地理坐标的空间数据进行分析。对网页文本的地理信息要素提取与地理信息空间定位是解决这些问题的有效方法。网页地理信息要素提取是将网络爬虫所获取的文本进行语义分析处理,并将其中所包含的地名地址与地理实体有效提取。地理信息要素空间定位则是对提取出的要素通过相似度计算、标准化、地理信息要素匹配处理等方法赋予空间坐标,以便GIS分析工具并进行分析处理。针对网页文本中地理信息的识别提取与空间定位问题,研究结果主要包括以下几个方面:(1)网页文本中地理信息要素提取方法。在国内外研究现状基础上,利用隐马尔可夫模型机器学习的方法对网页文本数据进行词性标注预处理。通过地名地址前后缀特征词识别窗口提取候选地名地址,根据制定的规则对候选地名地址进行匹配过滤,提取地名地址;通过HMM词性标注与词性识别窗口相结合提取候选地理实体,根据地理实体的验证规则进行过滤,提取地理实体。最后利用网页文本数据进行实验验证。(2)提出地名地址与地理实体空间定位策略。地名地址在空间定位之前,首先根据地名地址标准结构体进行标准化处理,并且根据地名地址的前后文信息确定其的大体区域范围,然后通过与定位参考库中的地名地址进行匹配比对,匹配成功的确定空间地理坐标,匹配失败无法确定位置的按空间定位模糊策略进行处理。地理实体空间定位采用实体名称相似度计算的方法,取与地理实体库中相似度最高的地理实体空间坐标作为待定位实体坐标,如果相似度均不在设定阈值范围,则无法对待定位地理实体进行定位。(3)根据文中地理信息识别提取与空间定位方法,对互联网中的多个网站进行地理信息要素提取与空间定位,并在原型系统的前端界面进行了直观的展现。