【摘 要】
:
聚类是数据挖掘中一种重要的挖掘方法,它从数据库中计算对象间的相似性,并依此对对象进行分类,使得不同类中的对象尽可能相异,而同一类中的对象尽可能相似,即“物以类聚”,发现数据
论文部分内容阅读
聚类是数据挖掘中一种重要的挖掘方法,它从数据库中计算对象间的相似性,并依此对对象进行分类,使得不同类中的对象尽可能相异,而同一类中的对象尽可能相似,即“物以类聚”,发现数据中隐含的有用信息或知识,数据聚类在很多领域中有着广泛的应用。本文研究的主要内容是基于Web日志完成其潜在的网络用户聚类,获得的聚类结果可以作为网站结构的优化、站点的重构以及个性化的服务和推荐的依据。本文分别从用户浏览路径的结构和内容两方面对Web日志中潜在的网络用户聚类进行深入的研究,分析了目前网络用户聚类的研究现状,着重研究用户浏览路径聚类算法(UBPC),指出该算法在网络用户聚类过程中存在的不足,并提出相应的改进。基于Web日志完成了用户识别、会话识别、事务识别等数据预处理过程,以用户的会话作为用户聚类的特征,引入一种计算有序的非数值数据对象相似度的方法,实现了基于浏览路径结构的用户聚类。引入了目标页和导航页的概念,提出一种先对目标页聚类再利用目标页聚类的结果进行用户聚类的方式,完成了基于浏览路径内容的用户聚类。在上述两种用户聚类过程中均采用改进的用户浏览路径聚类算法(UBPC),最后对聚类结果进行了分析,提出一些网站结构优化以及个性化服务的建议。
其他文献
红外技术属于物理学、电子学和计算机科学的技术的交叉学科,它是通过获取目标的红外辐射来进行检测处理。红外技术首先在军事领域得到应用,随着红外技术的发展,红外检测技术
随着信息技术的迅猛发展,计算机软件已渗透到社会生活的方方面面。与此同时,软件项目规模的不断壮大、功能的增强和复杂度的增加,软件的成本、进度、质量也变得更加难以控制,
专家系统是一种模拟专家决策能力的计算机系统。论文以机车故障诊断为应用背景,利用人工智能、故障诊断的理论和方法,研究并开发了一个机车故障诊断专家系统原型,以实现对机车故
自从数字水印技术从信息隐藏学科衍生出来后,数字水印技术应用领域不断扩大,现在已应用到了数字版权保护、秘密通信、票据防伪等领域。数字水印技术的核心问题是水印的鲁棒性和
随着互联网技术和数字信号处理技术的快速发展,数字化产品也得到广泛的普及,如何有效地保护数字化产品成为了当今时代信息安全保护亟需解决的问题。自上世纪九十年代起,数字
网格作为一个集成的计算与资源环境,或者说是一个计算资源池,它能够充分吸纳各种计算资源,并将它们转化成一种随处可得的、可靠的、标准的同时还是经济的计算能力。除了各种类型
随着计算机网络应用的普及和网上商务活动的日益频繁,计算机系统和网络的安全问题越来越突出。攻击事件发生的数量逐年增加,近几年的上升幅度更为明显。同时这些安全事故给社
面向对象的技术的出现可以追溯到上世纪六十年代,面向对象的方法更关注于数据而非过程,而在面向对象方法前的软件开发方法更关注于过程,以函数的角度来提供代码的复用。到了
随着语义Web的发展,基于本体的开发和应用越来越多。本体是共享概念模型的形式化规范说明。由于本体开发本身具有分布式的特点,不同组织开发的本体可能覆盖相同或者相交的领
关联规则挖掘是数据挖掘中的一个重要研究分支。传统关联规则挖掘算法使用单一最小支持度阈值进行挖掘,但在实际使用中由于各项目发生频率的不同,需要使用不同的最小支持度阈