论文部分内容阅读
近年来,随着移动设备、无线传感器、遥感测绘仪等空间数据采集工具的广泛应用和全球定位系统、地理信息系统等技术的飞速发展,累积了海量的包含位置信息的空间数据。空间数据挖掘和知识发现就是从海量的空间数据中提取隐含的、用户感兴趣的空间关系、模式和特征的过程。空间co-location(并置)模式是一组空间特征的子集,其特征的实例频繁地在空间邻域中并置出现。作为一种重要的空间数据挖掘任务,通过挖掘空间co-location模式,我们可以有效地发现空间特征之间的并置关系,从而将其应用于生态保护、移动商务、公共安全、城市规划、公共卫生、空间决策等各个领域。随着空间co-location模式挖掘的广泛应用,日渐多样化的应用场景和用户需求使模式的可用性受到了极大的关注。传统的co-location模式挖掘将模式的频繁性作为唯一的兴趣度度量,挖掘到的模式不仅数量繁多,且只表达了空间特征的共存信息,在实际应用中缺乏针对性和可解释性,导致提供给用户的模式挖掘结果质量不高,难以指导用户的行动。基于以上问题,本文深入分析空间实例的分布关系,提出考虑实例之间、特征之间及模式之间的相互影响高质量空间co-location模式,提高了模式的解释性和可用性,具有重要的实际意义和应用价值。本文通过观察空间实例的分布关系,提出了考虑模式内部特征之间的相互影响的含主导特征的co-location模式挖掘方法、考虑模式的实例在其邻域中的影响的主导co-location模式挖掘方法、以及考虑不同模式之间的相互影响的组合co-location模式挖掘方法,从而得到精简的、解释性强的和更能指导用户行动的高质量空间co-location模式。本文主要研究内容与贡献归纳如下:一、针对基于参与度的频繁co-location模式挖掘的传统方法无法发现模式并置的主导因素的问题,定义了特征差异度度量,提出含主导特征的空间co-location模式。其次提出了主导特征的空间co-location模式挖掘问题和挖掘算法。真实数据集上的应用实例说明含主导特征的co-location模式具有较强的针对性及可解释性,且能够避免生成一些无用或错误的模式,是一类考虑特征之间的相互影响的高质量co-location模式。二、针对基于参与度的频繁性度量无法评价co-location模式的实例在其空间邻域中的影响的问题,定义了空间占用度度量,提出主导co-location模式新概念。其次,提出了出主导co-location模式挖掘问题、主导co-location模式挖掘算法及剪枝策略。真实数据集上的应用实例表明主导co-location模式挖掘方法可以有效地精简传统频繁模式,并得到更有代表性和指导性的挖掘结果,是一类考虑模式的co-location实例在空间中的影响的高质量co-location模式。三、针对单个co-location模式的模式信息不足以为用户提供全局信息的局限,通过考虑不同模式之间的相互影响,提出了组合co-location模式新概念,并定义了组合co-location 模式的兴趣度。其次,提出组合 co-location 模式挖掘问题,去除冗余的组合 co-location模式策略和挖掘算法。真实数据集上的应用实例表明组合co-location模式挖掘方法可以全局角度对挖掘结果进行评估和分析,并给出精简、有趣的模式分组结果。说明组合co-location模式是一类考虑模式之间相互影响的高质量的co-location模式。