论文部分内容阅读
人类正快速迈进“大数据”时代,随着遥感传感器、位置服务终端的日益普及,空间数据资源呈急剧增长态势,面向服务的空间数据挖掘已成为地学领域数据增值与知识发现、解决大数据科学问题的重要手段。如何合理地运用自然语言实现人-机间的信息交互,为挖掘服务用户屏蔽高深的专业知识、简化复杂的服务流程建模工作,实现复杂、众多的空间数据挖掘服务的遴选与服务流程组合的自动化、智能化,是当前云服务环境下空间数据挖掘与知识发现领域的重要研究内容。本文开展自然语言描述的空间数据挖掘问题的语义解析与智能化求解方法研究,集成空间数据挖掘本体构建、空间数据挖掘问题的语义解析、基于智能规划的空间数据挖掘服务自动组合等技术,致力于形成一套从自然语言描述的空间数据挖掘任务向可执行的挖掘服务流程转化的问题智能求解解决方案与软件原型。主要研究工作和成果总结如下(1)提出了结合核心本体构建与中文概念术语扩展的空间数据挖掘本体构建方法。在提取领域相关概念术语的基础上,着重探索了空间数据描述涉及的空间数据类型、空间数据服务、数据属性特征以及数据集空间关系的组织方法,并提出了以行政区划作为中介的数据集空间关系确定方式。依据本体概念、属性关系进行本体形式化描述工作,形成空间数据挖掘的样例本体;基于ICTCLAS扩展了面向空间离群的本体中文概念术语。实现了空间数据挖掘算法服务、空间数据服务的语义注册,并结合Jena提供的本体操作接口、SPARQL查询语言、以及Jena规则推理引擎,实现了算法服务与空间数据服务的语义推理查询。(2)创新性提出了面向空间数据挖掘问题的语义解析方法。在分析本体在语义解析过程中所起作用的基础上,概括了以挖掘任务与对象数据作为主概念、从属概念与关联关系为扩展概念的问题语义要素,进而提出了能够有效体现要素间语义关系的三元组语义关系识别方法,并实现了由关键概念提取、语义模式判断、问题形式化等三个阶段构成的问题语义解析方法。该方法以邻近断句的特征向量逐次向外扩展的方式进行空间数据挖掘问题的语义要素三元组填充,能够充分考虑断句间的语义相关性,准确地把握挖掘问题的语义内涵。(3)针对空间数据挖掘流程的复杂多阶段特征,提出了面向空间数据挖掘的多阶段智能规划求解方法。从领域模型与问题模型两个方面,对多阶段PDDL规划建模方法进行详细阐述。针对领域模型生成,重点探索了在从本体类&属性向PDDL原语的类型&谓词的转化,提出了算法服务的语义信息向PDDL领域模型原子动作的转化方法;针对问题模型生成,采用数据服务语义信息向PDDL司题模型的转化方式,实现了面向不同任务、不同智能规划求解空间的多阶段PDDL规划建模,并结合FF规划方法,详细描述了多阶段服务自动组合的实现流程。该方法能依据阶段划分有效地限定规划搜索空间,实现挖掘服务流程的自动组合,显著提高了智能规划时间效率。(4)依托地理知识云服务平台GeoKSCloud,开展空间数据挖掘问题智能求解功能模块设计,实现了云服务语义注册与查询、问题语义解析、服务组合智能规划等功能,并以土壤数据异常分析为例开展了示范应用研究。实际应用结果验证了课题提出的问题语义解析与智能化求解方法的可行性与有效性。首先,能够为用户屏蔽所需的大量专业知识,大大降低服务功能的使用门槛。其次,基于语义的服务查询能够更好地满足用户需求,返回更准确、更全面的查询结果;再者,多阶段智能规划方法能有效地提高智能规划的效率,大致能够缩短10-40%不等的规划时间。