基于本体的中国行政区划地名识别与抽取研究

来源 :兰州大学 | 被引量 : 28次 | 上传用户:lijian6185
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web的不断发展和日益普及使得Web网页的数量飞速增长。众多的Web网页蕴含着丰富的地理信息。充分挖掘Web上的地理信息一方面可以满足人们对地理信息的查询及检索需求,另一方面能够促进基于位置的服务等新兴领域的发展。中文地名是中文网页中数目最多、最为常见的地理信息。本研究在自然语言处理的基础上,借助构建的中国行政区划地名时空本体,将中国行政区划地名从Web文本中标识出来,通过geo/non-geo和geo/geo地名歧义的消除,使之与地球表面具体的地理位置相对应,进而为Web文本中的中国行政区划地名赋予地理坐标和地理语义,并以地理可视化的方法建立该Web文本与地图中空间位置的关联关系。目前国内对中文地名的识别与抽取多是从自然语言处理的角度,仅限于中文地名的初步识别,缺乏地名歧义消除处理,使得识别结果无法应用于地理信息服务领域。虽然有学者从事地理时空本体和中文地名识别与抽取的研究,但是目前还没有将这两者有机地结合到一起,重点关注地名歧义消除的清晰论述。本文建立了一个基于本体完成中文地名识别与抽取的理论体系框架,并基于该框架设计并实现了一个中国行政区划地名识别与抽取原型系统。本研究的主要成果包括:①在介绍和综述本体、地理本体、空间本体等概念的基础上,根据顶层本体——基础形式本体BFO,运用部分—整体学、定位理论和拓扑学基本理论,建立了一个包括BFO-SNAP和BFO-SPAN两个成分的地名时空本体模型,并将该模型作为建模框架,完成了能够形式化表达地名变更及地名演化时间特性的中国行政区划地名时空本体的构建。②运用文本工程通用框架GATE,利用基于本体的信息抽取方法,设计并实现了一个基于本体的中国行政区划地名识别与抽取原型系统。该系统使得中国行政区划地名这种间接的地理空间参照具有精确的地理坐标,在一定程度上消除了自然语言中非结构化空间信息与GIS结构化空间信息之间的语义障碍。③分析了中国行政区划地名歧义的特点及产生原因,将中国行政区划地名存在的歧义区分为geo/non-geo歧义和geo/geo歧义两种,并进一步将geo/geo歧义分为两类:有行政隶属关系的地名使用同一个特称地名、无行政隶属关系的地名使用同一个特称加通称地名或特称地名。④设计了有效的基于本体的geo/non-geo和geo/geo歧义消除算法,以消除Web文本中广泛存在的中国行政区划地名歧义。算法不识别Web文本中具有geo/non-geo歧义的中国行政区划地名,并为识别出来的具有geo/geo歧义的中国行政区划地名指定唯一的地理位置。⑤根据中国行政区划地名时空本体,为Web文本中的无歧义中国行政区划地名进行语义标注,赋予它们地理语义及地理坐标,并实现了Web文本中中国行政区划地名的地图可视化。
其他文献
小儿先天性肛门直肠畸形(ARMSs)是常见的先天性消化道畸形,手术是惟一能够治愈该畸形的方法,排便功能障碍是ARMSs患儿术后常见的并发症,严重影响患儿生活质量。排便功能障碍
在计算机信息科学技术快速发展的时代背景下,传统的人工收集,整理及管理的档案模式已不再满足当时的需求。档案管理信息化是新时期档案管理的方向,本文分析了档案管理信息化建设
近年来,伴随着我国公共设施建设进程的加快,公路和桥梁工程的数量正在平稳增长,促进了我国山区的建设发展.本文主要针对山区公路的水毁原因提出了几点合理化的建议,希望能够
本文以传统人物画为中心,依照由“法”入“理”、由“理”求“道”的传统学术次第,对中国画“勾勒法”进行了较为深入的学理探微。文中围绕中国画“勾勒法”的“文化成因”、“