论文部分内容阅读
目前,随着Internet技术的发展,基于Web的学习逐渐被人们接受和普及。但是也存在一些问题。例如:在网络学习过程中学习者面对海量学习资源,却常常面临“数据丰富而知识贫乏”的困境。如何从海量的学习资源中挑选出满足学习者自身需求的资源,是Web学习领域亟待解决的一个难题。
数据挖掘技术是从海量数据中发现有用信息的一门技术,数据挖掘技术在Web环境下的应用称之为Web数据挖掘,其中Web使用挖掘是Web数据挖掘的一个重要分支,主要针对于保存在Web服务器上的访问日志文件进行挖掘。而Web学习活动的进行主要是通过学习者访问网站页面内容,而每一次学习者的访问信息都会保存在Web服务器日志文件中,日志记录反映了学习者的学习模式和网站结构等信息,运用Web使用挖掘技术对日志文件进行分析,可以找出隐藏在其中的有价值的信息。
本文从Web使用挖掘的数据来源开始进行分析,提取原始日志文件,使用SQL SERVER 2005的DTS功能将其转化为传统关系型数据库,在对数据进行净化、用户识别、路径补充、会话识别等预处理后,构建页面与用户之间的关联距阵,在模糊划分聚类理论指导下,进行标准化处理,提出基于向量的聚类算法,运用欧氏距离来度量学习者之间的相似性和页面之间的相关性,进而获取相似学习者群体和相关页面集合,另外,对相关页面集合进一步分析,挖掘出被学习者频繁访问的路径。相似学习者群体、相关页面集合和频繁访问路径的发现,将对指导学习者学习和网站建设起到重要的作用。最后以一个实际的学习网站为例,提取部分学习者一段时间内的访问数据,对该算法进行验证,结果表明此算法是可行的。