论文部分内容阅读
Web的不断发展和日益普及使得Web网页的数量飞速增长。众多的Web网页蕴含着丰富的地理信息。充分挖掘Web上的地理信息一方面可以满足人们对地理信息的查询及检索需求,另一方面能够促进基于位置的服务等新兴领域的发展。中文地名是中文网页中数目最多、最为常见的地理信息。本研究在自然语言处理的基础上,借助构建的中国行政区划地名时空本体,将中国行政区划地名从Web文本中标识出来,通过geo/non-geo和geo/geo地名歧义的消除,使之与地球表面具体的地理位置相对应,进而为Web文本中的中国行政区划地名赋予地理坐标和地理语义,并以地理可视化的方法建立该Web文本与地图中空间位置的关联关系。目前国内对中文地名的识别与抽取多是从自然语言处理的角度,仅限于中文地名的初步识别,缺乏地名歧义消除处理,使得识别结果无法应用于地理信息服务领域。虽然有学者从事地理时空本体和中文地名识别与抽取的研究,但是目前还没有将这两者有机地结合到一起,重点关注地名歧义消除的清晰论述。本文建立了一个基于本体完成中文地名识别与抽取的理论体系框架,并基于该框架设计并实现了一个中国行政区划地名识别与抽取原型系统。本研究的主要成果包括:①在介绍和综述本体、地理本体、空间本体等概念的基础上,根据顶层本体——基础形式本体BFO,运用部分—整体学、定位理论和拓扑学基本理论,建立了一个包括BFO-SNAP和BFO-SPAN两个成分的地名时空本体模型,并将该模型作为建模框架,完成了能够形式化表达地名变更及地名演化时间特性的中国行政区划地名时空本体的构建。②运用文本工程通用框架GATE,利用基于本体的信息抽取方法,设计并实现了一个基于本体的中国行政区划地名识别与抽取原型系统。该系统使得中国行政区划地名这种间接的地理空间参照具有精确的地理坐标,在一定程度上消除了自然语言中非结构化空间信息与GIS结构化空间信息之间的语义障碍。③分析了中国行政区划地名歧义的特点及产生原因,将中国行政区划地名存在的歧义区分为geo/non-geo歧义和geo/geo歧义两种,并进一步将geo/geo歧义分为两类:有行政隶属关系的地名使用同一个特称地名、无行政隶属关系的地名使用同一个特称加通称地名或特称地名。④设计了有效的基于本体的geo/non-geo和geo/geo歧义消除算法,以消除Web文本中广泛存在的中国行政区划地名歧义。算法不识别Web文本中具有geo/non-geo歧义的中国行政区划地名,并为识别出来的具有geo/geo歧义的中国行政区划地名指定唯一的地理位置。⑤根据中国行政区划地名时空本体,为Web文本中的无歧义中国行政区划地名进行语义标注,赋予它们地理语义及地理坐标,并实现了Web文本中中国行政区划地名的地图可视化。