基于模糊聚类的Web日志挖掘研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:starylove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展,“信息迷航”和“信息过载”的问题日益制约人们高效地使用Interne信息。为了解决这一严峻的问题,很多研究者提出了个性化推荐系统的概念,即根据用户的兴趣和特点推荐用户感兴趣的信息。而目前应用最广泛的个性化推荐系统应当属个性化推荐网站了。具体的说就是当用户在访问个性化网站的时候,总有一种感觉,好像整个网站都是为他设计的,特别友好,一切都是那么有用,都是自己当前很感兴趣的东西。因此,使用数据挖掘和人工智能等相关技术对用户的浏览行为进行分析,即对Web日志进行挖掘已经成为提供个性化服务的一个重要方法。 目前,国内外对Web日志挖掘的研究主要集中在对用户会话的研究上,包括关联规则、协同过滤、聚类和分类等,其中,聚类技术常被用来分析网站用户对网页的兴趣爱好。但是,传统硬性的聚类只能将用户会话类归于单一聚类中,即事先假设每一个会话只包含单一的兴趣爱好,却忽略该会话可能包含多个兴趣爱好。因此,有学者将模糊聚类应用其中。模糊聚类算法按照数据对象的不同,可以分为特征向量聚类算法和关系数据聚类算法。对于关系数据聚类算法,国内目前使用较多是基于模糊等价关系矩阵的聚类算法,而对于基于目标函数的关系聚类算法研究并不多。同时,在分析用户会话相似度时,往往是根据会话之间相同网页的数量或者网站的层次结构来定义会话相似度,而忽略了用户在会话中对各个网页的访问时间,所以容易产生错误的分析结果。 本文正是在这一背景下,以Web服务器日志为研究对象,研究了Web日志挖掘领域相关的技术,对其中Web日志预处理、模糊聚类算法以及个性化网站的体系结构等进行了研究和改进,并部分实现了一个具备推荐功能的个性化网站的系统原型。 本文的主要工作如下: 1.提出了一个改进的用户会话相似度的计算方法。该方法既考虑了用户会话之间相同网页的数量对会话相似度的影响,同时又考虑了网站的层次结构和用户在网页上的停留时间对会话相似度的影响,这样可以更加准确的反映用户会话之间的相似度。 2.提出了一个改进的 Web 日志数据聚类算法—基于分裂层次的RFCMdd(Robust Fuzzy C Medoids)。RFCMdd算法是一种健壮的,运行速度快,并适合于大数据量数据的模糊分割聚类算法。不过RFCMdd也有传统分割聚类算法的缺点:对初始聚类中心敏感和聚类的个数必须事先给出。这容易导致聚类的主观性和随意性,会影响到正确的聚类结果。而分裂层次算法的优点就在于通过分裂的方法来决定最终聚类的个数。因此,把RFCMdd 算法和分裂层次算法结合起来,可以有效的克服上述缺点。 3.提出了一个个性化在线推荐系统原型。该系统分为离线挖掘和在线推荐两个部分,提供的个性化推荐服务可以直接面向匿名用户。离线挖掘部分主要是利用基于分裂层次的RFCMdd算法对用户会话进行聚类,得到用户会话聚类集并生成推荐模式库。在线推荐部分主要是获取当前用户会话,然后和推荐模式库中的模式进行匹配,自动产生推荐页面集,提供给用户,从而达到个性化推荐的目的。
其他文献
随着下一代网络NGN的发展以及电信网、互联网的融合趋势的不断加强,通往电信网的大门已悄然打开,电信网安全性日益受到挑战。七号信令网作为电信网的一个重要部分,缺乏有效的安
光纤通信的发展使得光纤传输系统朝超大容量超远距离的方向发展,40Gb/s系统以其在频谱效率、集成度以及OAM成本方面的优势,将逐步取代现有的10Gb/s系统。但随着传输速率的提
认知无线电网络中,分布式信道选择和接入问题是目前研究的热点之一。本文主要研究了分布式选择与接入的基本理论以及相关算法。首先简单介绍了认知无线电理论以及相关研究的发
H.264/AVC作为目前视频编解码领域的主流标准,采用基于块的混合编码框架,获得的压缩效率是MPEG-4和H.263的2倍左右,因而成为研究的热点。H.264编解码算法复杂度很高,为了满足H.26