论文部分内容阅读
随着互联网信息资源的爆炸性增长,各行各业的数据都充斥在互联网这个海洋里。地理实体信息采集主要依赖国家的地理信息普查、实地测量和调查,费时费力,难以满足地理实体信息快速采集与更新的需求,而互联网上丰富多样、源源不断的信息为地理实体信息的快速获取提供了有力的支撑。本文通过对地理实体位置数据和地理实体属性数据的互联网获取相关理论和技术的研究,建立了一个基于互联网的地理实体信息采集原型系统。论文的具体研究内容如下:1、通过对地理实体信息采集背景的分析,指出了基于互联网采集地理实体信息的重要性;介绍了Web地理信息的互联网分布现状和Web地理信息获取的研究现状;从文本信息中的地理实体信息出发,分析了信息抽取的研究现状。对地理实体相关概念进行总结,并对比了地理实体信息与基础地理信息、POI信息的异同;对信息抽取领域的相关概念、抽取内容、方法进行了介绍;结合地理实体概念和信息抽取理论,对地理实体的位置数据和属性数据的获取进行了介绍,提出了地理实体信息互联网获取的技术方案。2、针对地理实体位置数据互联网获取,提出了基于POI的全球地理实体位置数据获取方案。国内针对百度地图、高德地图,分别利用百度地图和高德地图API实现了对指定任意区域全部类别POI的快速获取。国外利用OSM地图进行了相关研究和试验,提出了通过数据格式转换获取和根据OSM数据中的<key,value>抽取POI数据两种获取方案。最后,结合三种数据的不同特征,对百度地图和高德地图POI数据进行融合,对OSM数据进行转换,实现了基于POI数据生成地理实体的位置数据。3、基于互联网的地理实体属性数据结构化获取,依据属性抽取相关理论和地理实体属性信息所在百科文档的特点,对基于半结构化文本和非结构化文本的地理实体属性抽取进行了相关研究。前者是基于百科信息框的地理实体属性抽取,通过属性归一化和文本规则匹配抽取地理实体属性;后者是利用机器学习理论,提出了基于弱监督的条件随机场抽取地理实体属性的方法,利用前者抽取得到的地理实体属性对非结构化文本自动标注,生成训练集,然后利用条件随机场模型生成地理实体属性特征模型,利用模型对非结构化文本中地理实体属性进行预测抽取。最后对以上两种方法设计了相关实验进行了验证。4、依据地理实体信息互联网采集的现实需求,本文以丰富多样的互联网基础地理信息服务为基础,将上述地理实体位置数据获取和属性数据获取的技术和成果进行集成,设计并实现了一个地理实体信息互联网采集的原型系统,对上述研究成果的应用的同时实现了基于互联网的地理实体信息一体化采集。