论文部分内容阅读
GML(GeographyMarkupLanguage,地理标记语言)作为网络环境下的一种地理信息编码规范,随着计算机技术、网络技术、数据库技术的不断发展,已广泛应用于各个领域;随着LBS(LocationBasedService,基于位置的服务)市场的扩大,大量的GML时空数据不断涌现,GML在给人们带来便利的同时也产生了一系列的问题,其中最突出的问题是信息过量,信息的利用率不高,对于信息的处理超出了人们的能力。如何从海量GML时空数据(库)中提取隐含的知识成为GML研究的前沿性与挑战性的课题,GML数据挖掘应运而生。 传统的数据挖掘技术面向结构化数据,无法解决变化的、具有层次结构的GML数据,为此,本文着力于解决GML时空聚类挖掘问题,从以下几个方面展开了研究: (1)详细阐述了空间数据挖掘、XML数据挖掘、GML理论。对GML时空聚类挖掘关键技术从解析、可视化、GML数据挖掘方式及步骤、聚类质量评价等多方面进行了研究。 (2)设计了一种适合GML时空聚类挖掘的体系结构。该体系结构分为数据源、挖掘器和用户界面三层,数据源采用了GML时空数据文档,该文档描述了不同时刻飓风的路线,挖掘器根据用户设置生成簇的数目完成挖掘任务,用户界面是人机交互的中介,用户可通过用户界面把要完成的任务交给计算机,同样,计算机处理的结果以图形、文本等其他可视化的方式将挖掘结果反馈给用户。 (3)在分析、比较现有经典聚类算法的基础上,提出了一种将经典的K-Means聚类算法与扩展的XML文档查询语言LINQ挖掘语言结合的算法L-Kmeans,该算法有效解决了GML时空聚类问题,通过实验表明该算法的有效性及实用性。 (4)采用组件式开发技术ArcEngine在.NET开发环境下,从GML数据解析、可视化和 聚类挖掘等方面开发针对GML时空数据的聚类挖掘系统——ClusteringMiningSystemofGML,实现了GML聚类挖掘原型系统。 本文对GML时空聚类挖掘的研究具有较强的现实意义与理论意义,对了解空间实体的分布规律具有较好的指导作用,从理论上来说将进一步丰富和完善数据挖掘的理论与技术体系。