基于时空数据的挖掘算法研究

来源 :西安科技大学 | 被引量 : 0次 | 上传用户:sddmymj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网技术和数据采集技术的发展,产生了大量包含时间、空间等信息的时空数据。如何从这些时空数据中挖掘潜在有用的知识,用于指导决策、商业分析等社会服务,成为数据挖掘研究领域新的研究问题和热点。本文针对时空数据挖掘问题进行了研究,内容主要包括以下两个方面。(1)时空数据下兴趣区域发现方法的研究。针对现有空间聚类方法时间开销大,且不适应时空数据特性的问题,提出一种时空兴趣区域发现算法SPROI,该算法是一种基于网格和时空密度的聚类算法。一方面,结合访问频率和停留时间两个变量给出了时空密度的密度计算方法,充分考虑了时间、空间约束;另一方面,使用基于网格的聚类方法,在需多次、重复聚类的情况下提高了算法的运行效率。算法的主要过程包括:首先,将空间范围划分为单元格,计算数据所在单元格的时空密度,找出符合密度阈值的核心单元格。然后将核心单元格进行合并、过滤等操作,最后得到时空兴趣区域。实验表明该算法有效可行,效率较高。(2)时空数据下频繁模式挖掘方法的研究。由于时空数据的特殊性,现有的频繁模式挖掘算法不适应时空数据下的挖掘问题,提出一个时空数据的频繁模式挖掘算法SPMQT-mining。该算法考虑时空数据的动态性、序列性,采用滑动窗口模型,构建了基于矩阵、队列和前缀树的概要结构SPMQT压缩存储时空信息,基于Prefix Span方法递归地挖掘时空频繁序列模式。算法的主要过程包括:首先,将时空数据通过SPROI算法转换为兴趣区域序列。然后,针对时空数据的特性,通过构建概要结构SPMQT压缩存储时空信息来分离时空数据中的支持度信息、序列信息和挖掘所需索引信息。最后,基于Prefix Span方法递归地生成投影数据库完成挖掘。实验表明,该算法具有较好的时空效率。
其他文献
随着经济社会的进步与发展,人们对能源的需求越来越多,并且逐渐把发展焦点转向了资源丰富的辽阔海域。在对海洋开发利用的过程中,以海洋平台为依托的离岸浮动式发电系统作为
近年来,随着国民经济的高速增长,我国城镇化进程进一步加快,劳动力转移的规模和速度快速增加,大量农村劳动力脱离第一产业,转移到第二、三产业中去,导致农村劳动力数量急剧减