基于SOM神经网络和模糊聚类的Web日志增量挖掘研究

被引量 : 0次 | 上传用户:oskarguan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息爆炸时代的来临,数据动态更新的速度加快,网民面对海量的数据信息往往显得无从下手,出现了所谓的“信息过载”现象。为了在大量的数据中提取出人们感兴趣的知识,一种根据用户浏览Web站点时留下的一系列点击动作的记录,推测用户的需求和偏好,为用户提供个性化推荐技术的研究就逐渐成为当前一个重要的课题。首先,本文综合考虑了经典的SOM神经网络和模糊聚类算法的特点,提出了一种基于SOM神经网络和模糊聚类的挖掘算法。通过预设一个较大的输出神经元个数,利用SOM神经网络对数据集进行粗聚类,得到粗聚类中心集。接着将粗聚类中心集作为模糊聚类算法的输入参数,对原始数据集进行细聚类,并输出聚类中心集。最后通过类合并算法判断聚类是否需要合并,并输出最后的聚类集合。由于改进的算法采用了SOM粗聚类输出的聚类中心作为模糊聚类算法的初始聚类中心,解决了模糊聚类算法的多个随机初始聚类中心可能出现在同一个聚类中,导致最终聚类效果不理想的问题。算法中采用了类合并算法,使得模糊聚类算法并不需要人为指定聚类的个数,降低了模糊聚类算法对初始聚类中心的个数过于依赖的问题,并能够发现不同形状的簇。其次,本文在基于SOM神经网络和模糊聚类的挖掘算法基础上设计了一种Web日志增量挖掘算法。该算法对噪音不敏感,充分利用了上次的挖掘结果,能够快速地进行增量更新,适用于对数据更新频繁的数据库进行增量挖掘。特别是对Web日志这类数据量相对比较大,更新频繁的动态数据库,该算法有比较明显的优势。最后,本文设计并实现了Web日志增量挖掘模型,通过对预处理过的Web日志数据进行了多次实验分析,对本文提出的算法的性能进行了评估。实验结果表明本文提出的算法相对于传统的聚类算法具有更好的稳定性和适应性,能够处理动态数据库增量更新问题。
其他文献
一、本文对比研究了化学发光酶联免疫分析(CLEIA)与酶联免疫分析(ELISA)技术检测水产品中呋喃唑酮代谢物(AOZ)和氯霉素(CAP)残留。结果显示:通过对两种药物残留检测证明, CLEIA分析方
目的观察基质金属蛋白酶-19(matrix metalloproteinase-19,MMP-19)在结直肠腺癌组织中的表达及意义。方法采用免疫组化法检测71例结直肠腺癌、32例结直肠腺瘤和34例癌旁正常
信息产业是21世纪的朝阳产业,凭借自身强大的生命力,逐渐成为各国经济发展中的先导产业,使经济发展由以资金、原材料、能源为战略资源的劳动密集型产业向以信息、知识为战略
加快推进供给侧结构性改革下耕地高效可持续利用,对于保障国家粮食安全和增加农民收入,意义重大。目前,湖南耕地利用供给侧存在种植结构欠佳、要素投入不优、资源约束增大、
计算机兵棋系统具备节省训练经费、不受场地限制、接近真实体验等优点,是和平时期战略战役指挥能力训练的有效途径,其发展也越来越受到国内外的重视。对推演数据进行分析是计算
X射线的发现对人类医学史的进步做出了巨大贡献,X射线被广泛应用于疾病的诊断与治疗。X射线的质量决定了成像质量并影响着人体健康,而X光机电源系统的质量决定了X射线的质量,因
中共的思想建设即指中共为保持自己的创造力、凝聚力和战斗力而在思想理论方面所进行的一系列工作。基层机关党组织的思想建设特指基层机关党组织思想理论建设方面的工作。基
目的:建立家兔肾脏在体机械灌注与冷保存模型;低温机械灌注对比传统冷保存在边缘供肾保存中的优势并探讨其机理。试验分为两部分第一部分:建立家兔DCD(Donation After Cardiac
随着信息技术的飞速发展,互联网上的数据量快速增长,数据种类也多种多样,世界已经转移到以数据为中心的范式上——“大数据”时代。传统的数据处理技术主要采用数据库管理模式,在
潍坊作为山东半岛都市群的核心城市,在山东省的经济增长中扮演了重要的角色。潍坊市正处在转变经济发展方式,调整优化经济结构,全面建设小康社会的关键时期。2011年山东半岛蓝色