论文部分内容阅读
地名作为最常用的社会公共信息之一,是国家行政管理、经济建设、国内外交往不可或缺的基础信息资源,在移动位置服务、网络电子地图、智能交通、公共安全等领域中都有着广泛的应用。目前我国已经构建了全国级、省级和市县级不同规模、不同尺度的地名数据库,但是由于我国地名数量众多、地名更新速度快,地名数据库中信息不完备,特别是空间位置信息缺失问题普遍存在。随着Web2.0等互联网技术体系的出现,网络已成为除GPS、遥感影像等之外的一种新型的地理信息来源。从海量网络资源中挖掘地理信息成为地理信息科学研究的重要内容。 本文利用CRF模型和规则模型实现了网页文本中空间信息的获取,在实现地名的空间语义消歧的基础上,探讨了基于密度分析的模糊建模方法和空间关系语义解析模型的模糊建模方法,主要研究内容和成果如下: (1)基于信息抽取技术的地名空间位置信息获取:以网络文本为数据源,在地名识别和空间关系抽取的基础上,采用网络爬虫技术和主题敏感性网页获取技术,借鉴自然语言处理和地理信息抽取技术,对网页文本中的地名实体、地名坐标信息、空间关系信息的抽取,为进一步的地名消歧和地名空间模糊建模提供数据基础。 (2)基于地名行政隶属树状图的地名空间语义消歧:地名数据库中的地名之间具有行政等级的隶属关系的特点,在网页文本中地名识别的基础上,基于地名数据库匹配,构建与歧义地名关联的行政隶属树状图,根据树结构的健壮性判断歧义地名的空间位置,实验表明,在地名敏感性较强的网页中,该方法具有一定的可行性。 (3)基于相关性地名密度分析的地名空间模糊建模:假设文本中的地名之间具有一定相关性,提出了基于相关性地名密度分析的模糊建模方法。其核心思想是从文本中抽取空间相关性的地名,通过对其进行密度分析,和设置密度阈值来实现密度点的筛选,基于筛选后的点构建出地名的模糊区域。实验发现,该方法与基于上下文空间关系地名空间模糊建模的方法具有较好的互补性,进一步的提高地名空间模糊建模的精确性和可靠性。