论文部分内容阅读
数据挖掘就是从大量数据中提取信息或“挖掘”知识的过程,获取的信息和知识可以广泛用于各种应用。在数据挖掘的实现过程中,聚类是普遍采用的方法之一,聚类分析已经成为数据挖掘研究领域中一个非常活跃的研究课题。将聚类分析应用于Web服务器日志的挖掘,可以从记录了用户在站点上浏览行为的日志中提取用户的访问模式,如页面访问频度、用户聚类等。这些知识有助于网站设计者优化站点拓扑结构,提供个性化、智能化服务以及提高网站的性能。本文从对聚类分析基本算法的研究出发,在分析和实现层次聚类算法、k-means聚类算法以及模糊C-均值聚类算法的基础上,从聚类个数和聚类中心两个方面进行算法的改进,通过实验进行了改进后算法的有效性说明,并将改进后的算法应用于东华大学精品课程网站的日志挖掘中,取得了良好的分析效果。论文的主要工作如下:1)在分析和实现基本聚类算法的基础上,利用标准数据集进行了基本算法的比较说明,并对层次聚类算法、k-means聚类算法以及模糊C-均值聚类算法的聚类结果进行了比较。2)针对聚类算法中的初始聚类中心和聚类个数进行优化设计,改进了相应的算法,分析了模糊C-均值聚类算法的聚类个数估计方法以及皮尔逊相关系数距离度量方法,并进一步提出了一种基于粗糙集的改进的模糊C-均值聚类算法,随后实现了改进后的优化算法,并通过实验分析与传统聚类模糊C-均值聚类算法进行对比,比较改进算法与传统算法的聚类效果,说明了算法的有效性。3)将改进后的算法应用于Web日志挖掘,进行聚类结果的分析和研究,并在东华大学精品课程网站的Web日志数据上应用改进的聚类算法进行日志的分析研究,发现用户对网站页面访问的行为特点,给出网站的优化改进建议。