论文部分内容阅读
互联网的发展催生了全新的商业模式——电子商务,由于电子商务企业的竞争只在于鼠标的点击之间,因此如何获取并维持更多的网络用户成为了各电子商务企业之间竞争的焦点。对于电子商务网站能做的就是更加深入地了解用户的兴趣,而数据来源就是Web服务器日志。通过对Web日志进行分析和研究可以找到用户感兴趣的内容从而为用户提供个性化服务;同时对网站商品进行关联分析可以找出潜在的存在关联关系的商品,从而进行“捆绑式”销售;还可以根据页面聚类分析为网站的结构调整提供依据。本文主要是针对收集的Web服务器日志数据进行分析,找到一种新的用户对所访问Web页面的兴趣度量方法,在此基础上建立一个页面兴趣矩阵,然后通过对页面兴趣矩阵进行聚类分析,得到页面聚类和用户聚类进而为网站设计提供可行的参考。由于Web日志数据通常是大量和冗余的,日志中的页面之间关系又是模糊和不确定的,为此,本文采用模糊聚类方法进行Web日志的分析研究,主要工作如下:(1)概述了Web日志挖掘的发展和技术及其理论基础。(2)在深入研究Web日志预处理技术的基础上,通过对Web日志数据进行数据分析,提出一个新的页面兴趣度量方法。(3)提出了一个二次权值离散化的模糊聚类算法,在模糊聚类的基础上改进权值,提高了页面与页面(用户与用户)之间的关联度,文中对算法具体操作作了详细的描述,并辅以实例计算。(4)在上述工作的基础上,同时结合各种关键技术,设计了一个Web日志挖掘系统,主要功能包括数据导入,数据清洗,关键词Top10图表显示以及页面聚类和用户聚类等功能,为网站结构调整提供可行的参考。