基于人工免疫系统的Web日志挖掘应用研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:wucong520123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为丰富信息资源的提供源,Web已逐渐深入到人们学习、工作和生活的方方面面。随着Web结构的日益复杂,信息的日趋庞杂,用户要想在大多没有考虑其偏好和浏览兴趣的网站上获得有用信息变得越来越困难。Web服务器日志是一个结构化较好的记录集,保存了用户访问Web各页面的情况,这样旨在使用数据挖掘技术从用户与Web的交互信息中获得用户访问模式的Web日志挖掘技术应运而生。其中聚类方法常被用在Web日志挖掘中进行用户模式分析,以发现具有相同访问兴趣的用户,从而改进站点结构,实现个性化服务。本论文主要以聚类方法来挖掘Web日志,以期能用性能较好的方法挖掘出用户有用的模式。论文的主要研究内容如下:(1)总结了国内外Web日志挖掘技术和人工免疫系统的研究现状,分析了Web日志挖掘中数据预处理方法,介绍了人工免疫系统的基本机理和基本原理。(2)基于硬划分的聚类算法在处理Web日志数据时未考虑到其模糊性和不确定性,本文采用模糊C-Means聚类算法进行Web日志数据挖掘。以用户会话标识为行,用户访问的网页为列,构造用户会话矩阵,矩阵元素为用户访问兴趣度。对该矩阵进行模糊聚类分析后,获得具有相似访问偏好的用户,进一步处理得到用户共同的访问请求和访问行为,为个性化服务提供了依据。(3)鉴于Web日志数据呈现高维特性,常规聚类算法处理时存在维数灾难而导致效果不理想,并且必须事先给定聚类数,而实际应用中聚类数往往事先无法确定,本文采用人工免疫系统思想进行Web日志的挖掘。利用人工免疫系统中抗体与抗原之间的关系,将Web服务器看成生物机体,用户访问Web的请求序列即用户会话看成入侵抗原,通过抗体对抗原的不断学习,从抗原中提取结构和分布特征,形成特异性的记忆抗体,实现动态聚类。该算法挖掘Web日志时,能压缩数据,形成能反映抗原集类分布特性的记忆抗体集,自动生成用户会话的聚类模式。通过与模糊C-Means聚类算法的信息熵比较,该算法能更好地将具有共同特征的数据聚为一类,适合于Web信息量大且动态增长的特点。因此,应用本文提出的Web日志挖掘方法可以从服务器日志中提取出用户访问模式,为Web站点的管理者和经营者提供决策依据,在理论和实践上都有重要的研究意义。
其他文献
企业信息化随着信息技术的飞速发展逐步深入。企业信息化程度的高低已成为衡量企业综合管理水平的标志。但是,企业在信息化的过程中并不是一帆风顺的,因为新的问题会不断出现
在软件产业中,基于构件的技术是当前的热点,在面向对象的技术发展的今天,构件作为可重用的软件组件,在软件系统的开发上解决了重复开发的问题,提高了软件开发的效率。同样,GI
库存查询效率是数据库系统的重要性能指标之一,查询优化是该领域的难点和热点问题。本文提出了一种基于遗传算法的优化查询方法,该方法利用关键字预处理模块,将用户输入的关
在电子商务领域中,安全性问题是个极其敏感而重要的问题,是电子商务能否健康发展的关键。SET(Secure Electronic Transaction)电子商务协议是1996年由MasterCard(维萨)与Visa(
传感器技术、微机电系统、现代网络和无线通信等技术的进步,推动了具有现代意义的无线传感器网络的产生和发展。传感器网络作为连接计算世界和物理世界的桥梁,向应用或用户提
Web服务和对等(Peer-to-Peer, P2P)计算都是近几年国内外非常热门的研究领域。研究人员尝试把这两种技术相融合,试图解决传统Web服务机制中存在的可靠性、扩展性等方面的不足
基于对象存储(OBS)系统具有较好的安全性,能实现跨平台的数据共享,并具有高性能和可扩展性。基于对象存储设备(OSD)是OBS系统中智能化的网络存储节点,它能给用户提供一组基于
随着网络应用的发展以及各个高校规模的不断扩大,校园网拥有越来越多的用户,承载着越来越多的业务,校园网简单的建设模式已不能满足学校对网络的需求了。为了缓解以上压力,现
举重运动是一种力量型的比赛,但力量的大小并不是赢得比赛的唯一因素。运动员的成败除了取决于力的大小,还应该结合科学合理的技术动作,对举重训练进行科学的指导。举重运动
软件重用和软件整合可以缩短应用系统软件开发的时间、降低开发的成本,已经逐渐为业界所接受。“整合”要求完成各个活动的软件组件能够协同,协同的内涵之一是完成各个活动的