论文部分内容阅读
聚类分析是数据挖掘领域一项重要的研究课题。近年来,随着计算机和应用技术的高速发展,人们获得数据的能力有了极大的提高,同时获得的数据途径也越来越多。数据流(data stream)作为一种特殊的数据来源,越来越备受关注。如WEB点击流、气象观测信息流、电话记录信息流、卫星数据流等。由于数据流的数据量无限、对算法的响应要求很高,而且通常只能对数据访问一次,而传统的聚类算法对快速变化的数据流进行在线分析的支持存在着很多限制,因此急需开发适应数据流环境的聚类算法。计算机工作者们面临着新的挑战。本文针对时态数据流进行了研究,给出了时态数据流的概念和定义,同时在subspace a-cluster的基础上提出了TMSC(temporalmultiple-dimension subspace cluster)聚类算法来查找聚类,该算法采用了滑动窗口的形式,使得算法能保证无须针对所有时间点的数据同时进行聚类,减少了算法所需空间开销;同时有增量保持阶段,增量阶段无须重复计算之前的数据,只需处理新到达的相关数据,因此增量处理快;最后把算法用Java实现后,应用到了股票数据中,通过不同的参数设置,找到了不同时间段的聚类,有其一定意义。TMSC算法的主要创新之处为:1)从只能处理单维数据流扩展到了多维数据流;2)改进了聚类剪枝标准;3)对从m-level查找m+1-level的聚类给出了明确的定义和证明;4)发现了原先算法在增量更新阶段将会漏掉的聚类结果,通过保留所有聚类结果,解决了这一问题。