论文部分内容阅读
随着信息爆炸时代的来临,数据动态更新的速度加快,网民面对海量的数据信息往往显得无从下手,出现了所谓的“信息过载”现象。为了在大量的数据中提取出人们感兴趣的知识,一种根据用户浏览Web站点时留下的一系列点击动作的记录,推测用户的需求和偏好,为用户提供个性化推荐技术的研究就逐渐成为当前一个重要的课题。首先,本文综合考虑了经典的SOM神经网络和模糊聚类算法的特点,提出了一种基于SOM神经网络和模糊聚类的挖掘算法。通过预设一个较大的输出神经元个数,利用SOM神经网络对数据集进行粗聚类,得到粗聚类中心集。接着将粗聚类中心集作为模糊聚类算法的输入参数,对原始数据集进行细聚类,并输出聚类中心集。最后通过类合并算法判断聚类是否需要合并,并输出最后的聚类集合。由于改进的算法采用了SOM粗聚类输出的聚类中心作为模糊聚类算法的初始聚类中心,解决了模糊聚类算法的多个随机初始聚类中心可能出现在同一个聚类中,导致最终聚类效果不理想的问题。算法中采用了类合并算法,使得模糊聚类算法并不需要人为指定聚类的个数,降低了模糊聚类算法对初始聚类中心的个数过于依赖的问题,并能够发现不同形状的簇。其次,本文在基于SOM神经网络和模糊聚类的挖掘算法基础上设计了一种Web日志增量挖掘算法。该算法对噪音不敏感,充分利用了上次的挖掘结果,能够快速地进行增量更新,适用于对数据更新频繁的数据库进行增量挖掘。特别是对Web日志这类数据量相对比较大,更新频繁的动态数据库,该算法有比较明显的优势。最后,本文设计并实现了Web日志增量挖掘模型,通过对预处理过的Web日志数据进行了多次实验分析,对本文提出的算法的性能进行了评估。实验结果表明本文提出的算法相对于传统的聚类算法具有更好的稳定性和适应性,能够处理动态数据库增量更新问题。