论文部分内容阅读
文本作为最常用的一种自然语言的载体,是一种重要的原始空间数据来源,蕴含了大量的GIS(地理信息系统)空间查询信息。从文本中获取未分析、非显性的空间知识已成为当前地理信息科学迫切需要解决的问题。本文在详细综述国内外相关研究进展的基础上,重点探讨中文文本GIS空间查询信息抽取方法。主要内容包括以下几个方面:
(1)中文文本中GIS空间查询信息表达
在探讨了空间操作理论和GIS通用空间操作分类体系的基础上,研究了中文文本中空间查询信息的表达。GIS空间操作作为空间查询信息的重要组成部分,是空间查询信息GIS表达的重要基础,通过设计了GOML(空间操作标记语言),实现中文文本查询信息的规范化表达。
(2)GIS空间查询信息的语料标注与分析
在地理命名实体和空间关系标记语言及标注规范的基础上,采用GATE(自然语言处理开放式平台)平台进行GIS空间查询信息语料的标注工程。首先,从空间关系标注语料库中获取文本中常用的空间查询操作词语,将其作为小样本,使用HowNet(知网在线系统)从现代汉语词典中扩充空间查询操作词语,构建空间查询操作词典。然后,通过对实验语料的空间查询信息标注分析,总结常用的GIS空间查询信息的句法模式,将其编写为GIS空间查询信息JAPE(a Java Annotation PatternsEngine)抽取规则。
(3)基于规则的GIS空间查询信息抽取方法
利用JAPE抽取规则对实验语料进行自动抽取实验,验证基于GATE的中文空间查询信息抽取及其抽取结果GIS表达的可行性。实验分为三阶段:1)利用总结的JAPE抽取规则抽取标注语料,对比抽取结果,完善空间查询信息JAPE抽取规则;2)利用完善的JAPE规则抽取实验语料,其抽取准确率、召回率分别为68.3%、87.2%;3)用实验展示中文文本空间查询信息的GIS表达。