基于XML的Web日志挖掘研究和应用

来源 :武汉工程大学 | 被引量 : 0次 | 上传用户:yezilei311
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网技术的迅速发展和不断的普及。Web日志资源越来越丰富,如何充分利用这些资源,从中提取到用户所感兴趣的信息数据,是当前计算机领域的一大挑战。Web日志挖掘就是利用数据挖掘的思想对经过处理的服务器日志进行挖掘。 Web是一个无结构的动态的分布式的信息系统,直接对它进行挖掘是困难的。然而,Web服务器的log日志却有着完整的结构。因此我们提出“基于Web挖掘的个性化服务”,就是利用Web挖掘技术从服务器的日志文件中获取用户的访问模式,并根据这种模式对用户或页面进行聚类,挖掘出具有相似访问兴趣的用户或相似页面。运用聚类的结果可以方便地向浏览模式相似的用户组推荐其感兴趣的主题相似的页面,从而实现个性化服务,同时还可以优化站点的组织结构,进而提高网站的服务质量。 本文在研究了数据挖掘的基础上,重点研究了Web日志挖掘的特点、方法和相关的技术。研究分析了将经过预处理的日志数据存储到LOGML数据库的方法,并且将其改进,以便使接下来的模糊聚类更有效率,通过实验结果表明了方法的有效性。然后介绍了模糊聚类理论的应用及研究,通过模糊聚类算法得到相似用户群体和相关Web页面,然后得到频繁访问路径。 最后,设计了一个智能网站个性化服务的模型。通过对某网站日志的实践证明,证明了在改进了向LOGML数据库存储日志数据方法的前提下,使得通过模糊聚类算法得到相似用户群体和相关Web页面,然后得到频繁访问路径的准确性,有效性更高。
其他文献
随着信息技术与互联网技术的发展,大量的数据在各行各业中积累着,为了综合利用这些数据信息,达到充分的资源利用,需要针对现有的数据进行科学的研究和分析,进行大量的数据沉淀和数
学位
分类技术是数据挖掘领域一项重要的任务。如何根据训练集建立分类器,并使用该分类器准确预测待测试实例的类别是衡量分类器好坏的标准。单级分类器通常只对训练集学习一次,在
对等网络(P2P)是一种采用分布式体系结构的网络,也是当今一个迅速发展的研究领域。现有的P2P系统网络规模大、动态性高、异构性强,有效的搜索技术一直是P2P系统研究中的核心问题,
学位
有效的运动估计可以减少运动补偿残差帧中的能量,能够明显提高视频的压缩性能。本文系统分析了两种不同的运动估计方案:分级运动估计和变换域运动估计。运动补偿的嵌入式零块
Map Reduce作为一个并行处理的计算模型,因为其高容错性,高易用性,以及高扩展性在大规模分布式数据处理中得到广泛的应用。Map Reduce可以处理关系数据库中一些操作,像是选择
系统结构模型的构建是点对点技术的核心研究领域之一。全分布式结构化的系统把节点组织成一个具有良好的连接和路由规律的结构化拓扑来进行资源共享和查询。在结构化网络中,
随着计算机互联网的发展和广泛应用,网络安全问题变得越来越严重。因此,开展网络安全特别是入侵攻击与防范技术的研究,开发高效实用的入侵检测系统,对计算机网络的发展与应用
在图书馆流通中,每天都产生大量的数据,怎样合理地利用这些信息为图书馆管理服务,是我们迫切需要研究的课题。目前的图书馆管理系统无法发现这些数据中存在的关系和规则,无法
随着互联网的普及,信息的数量与日俱增,人们需要从海量的信息中提取真正需要的信息,信息抽取的研究正是在这种背景下产生的。信息抽取的主要目的是将无结构的文本转化为结构
随着企业生产规模的不断扩大,自动化立体仓库由于其物资存储效率高,占用空间少等特点越来越被广泛应用。立体仓库主要使用固定货架来存放货物,对固定货架货物拣选路径的优化