基于Web使用挖掘的e-Learning自适应推荐系统

来源 :电化教育研究 | 被引量 : 0次 | 上传用户:xyw1h
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
   [摘 要] e-Learning自适应推荐系统是一种基于当前学习者联机行为,在线自动推荐学习对象而不需要学习者直接反馈的系统。该系统框架是由离线模块和在线模块构成。离线模块预处理数据建立学习者模型,在线模块使用这些模型实时识别学习者目标,运用基于协作过滤的一系列推荐策略预测推荐学习对象。实验证明:由于实现模型构建和模型应用的有效分离,该系统具有较强的伸缩性和较快的实时响应速度,适合为大规模e-Learning系统提供高质量的个性化推荐服务。
   [关键词] e-Learning; 自适应推荐系统; Web使用挖掘; 协作过滤
   [中图分类号] G434 [文献标志码] A
   [作者简介] 刘小雪(1980—),女,河北玉田人。副教授,硕士,主要从事Web数据挖掘研究。E-mail:[email protected]
  
  一、引 言
   近年来,随着具有丰富学习资源与全新沟通机制的e-Learning兴起以及学习者个性化服务需求的增长,实时建议个性化学习对象以便指导和支持在线学习者的推荐系统已成为国内外许多学者研究e-Learning自适应技术的热点。这里的“学习对象”是指在e-Learning环境使用的所有已知格式教育资源。这些学习对象在e-Learning系统通过URL被引用,在日志文件被归档或作为URL引用在数据库被跟踪。因此,学习对象自动推荐意味着生成教育资源URL引用列表以指导和支持在线学习者。针对目前国内外典型推荐系统的应用研究现状,本文论述了一种基于当前学习者联机行为,在线自动推荐学习对象而不需要学习者直接反馈的e-Learning自适应推荐系统。
  
  二、构建e-Learning自适应推荐系统框架
   e-Learning自适应推荐系统框架是由离线模块和在线模块构成,如图1所示。离线模块预处理数据建立学习者模型,在线模块使用这些模型实时识别学习者目标,运用基于协作过滤的一系列推荐策略预测推荐学习对象。
   1.离线模块个性化建模
   学习者模型是由学习者使用e-Learning系统的一系列相关信息(包括学习知识、个人统计信息、学习偏好以及学习方式等)构成。本研究选择使用学习知识建模。知识模型表示为一系列加权访问学习对象构成向量,即学习者感兴趣的已访问学习对象或课程元素。建模方法主要有两种:协作建模和自动建模。协作建模需要学习者提供准确个人偏好和需求信息(即显式反馈)。而自动建模基于学习者联机行为(即隐式反馈)自动进行信息采集,不断从学习者交互和浏览历史记录采集大量数据自动提交给服务器端或e-Learning系统数据库。数据必须先经过数据清洗、用户识别、会话识别的预处理,以便有效运用Web挖掘技术分析建模。设e-Learning系统一门具体课程中有m个已注册学习者L={L1,L2,…,Lm},n个已访问学习对象LO={LO1,LO2,…,LOn}(通过其URL地址唯一表示),知识模型LKi=S,S2,…,Sp表示为从学习者Li∈L跟踪数据中提取的一组会话Sj,j∈{1,2,…,p},Sj是k项加权访问学习对象LOi的子集:
   S=〈LO,w(LO),LO,w(LO),…,LO,w(LO)〉
   这里LO=LOl,l∈{1,2,…,n},wLO是学习者Li在会话Sj中学习对象LO的引用权。知识模型LKi可以表示为p×n矩阵,其中p是已完成会话数,n是已访问学习对象数:
   恰当定义知识模型LKi后,我们采用基于协作过滤的两层模型(即学习者模型)把获得的知识模型LKi分成基于偏好异同的成批学习者。[1]第一层模型,我们应用聚类分析基于偏好异同的已访问学习对象。各种聚类技术都可以应用于聚类会话。不管使用哪种方法,第一层聚类将会产生簇C={C1,C2,…,Ck},每个簇Ci表示具有相似访问模式的一组相似学习者。聚类使用的相似特征是如公式(1)所示的余弦相似。在这个公式中我们考虑二进制加权即会话中一个学习对象引用存在或不存在。
   S=1 访问第j个OL0 不访问S= (1)
   第二层模型由每个获得簇Ci的应用组成。首先,频繁项集挖掘算法提取会话中属于每个簇的频繁出现学习对象引用。然后,从这些簇中提取满足最小支持度和最小置信度的强关联规则。关联规则捕获学习对象引用基于共现会话的关联性。一般关联规则发现方法如Apriori算法都可以被应用。[2]一个关联规则r可以表示为:A=>B,这里A和B是项集,r必须满足推荐页面集最小置信度阈值。置信度,αr=σ(A∪B)/σ(A),σr=count(A∪B)。
   在接下来的推荐阶段,活动学习者将直接被归类到已发现组(即簇Ci),然后通过匹配学习者当前导航与相应组的关联规则产生个性推荐链接项。
   2. 在线模块自适应推荐
   在线模块根据学习者模型事先定义隐式查询构成推荐阶段输入。这里“隐式查询”是指从当前学习者最近浏览历史记录提取的一组学习对象引用,可以表示为学习对象引用向量。这项任务分两步完成:(1)定义当前学习者活动会话;(2)从活动会话中提取有趣URL(即学习对象引用)。由于学习者活动会话是从Web访问日志文件(或数据库跟踪数据)提取,基于一个学习者访问系统时间戳和一个推荐所需时间戳的考虑,我们只能识别表示最近W个访问页面的记录,称为滑动窗口。在本研究中,我们设置固定滑动窗口尺寸W=3,所以只有最近3次页面访问会影响推荐。推荐过程的主要任务是基于协作过滤。首先,对簇(即离线阶段通过基于协作过滤两层模型得到的学习者组)滑动窗口页面以便把当前学习者分类到一个学习组。然后,我们使用相应组的关联规则提供个性化推荐。所有规则按照置信度由高到低排序形成推荐。
  三、仿真实验与评价
   为实施与评价该系统推荐质量,我们以插件形式将推荐系统集成到贵州师范大学eYouCT教学平台(http://learn.gznu.edu.cn/)作为系统实验环境。从2010年9月至2011年1月生成的150个大型日志文件中采集Web使用日志,52769个URL表示eYouCT中所有可用学习对象,经过数据预处理获得26947个会话。从中选择70%的会话组成训练样本集,其余30%的会话用于评价。用于评价的每个会话Si被分成两个部分:Si中的前n个学习对象引用被用于滑动窗口(隐式查询)生成推荐,Si中的其余部分被用于生成推荐评价。建模阶段,我们应用CLUTO软件分层聚类算法[3](余弦相似,k=10)聚类训练样本集中的学习者会话。在第一层模型中,每个簇表示为一个出现频率最高页面组成向量;在第二层模型中,设支持度为0.04,置信度为0.5,使用Goethals apriori算法在每个簇中计算频繁项集提取关联规则。推荐阶段,设w是滑动窗口尺寸,Si(w)是一组构成活动会话的学习对象引用,ESi是会话Si中保留下来用于评价推荐的一组学习对象引用,t是一项推荐阈值。推荐引擎把Si(w)和t当作输入,使用k最近邻分类算法(余弦相似,k=1)将活动会话Si(w)归类到最接近簇,匹配活动会话和先行选定簇关联规则以产生最终推荐链接集R(Si(w),t)(表示至少满足t的一组推荐学习对象)。实验评价基于两个基本指标:查准率(Precision)和查全率(Recall)来验证系统实际推荐质量。查准率表示推荐总数中相关推荐比例,[4]如公式(2)所示。查全率表示相关推荐与所有应该被推荐学习对象比例,[5]如公式(3)所示。本实验中,我们将滑动窗口尺寸w从1变化到3,推荐阈值t从0.5变化到1.0完成所有试验,测量查准率和查全率的变化情况如图2和图3所示。
   与传统推荐系统相比较,该系统主要在三个方面进行了改进:
   (1)实现模型构建和模型应用的有效分离,适合大规模e-Learning系统应用,具有较强的伸缩性和较快的实时响应速度。
   (2)在学习者显式信息比较少或e-Learning系统内容变化频繁的情况下,应用分类、聚类、预测、关联规则等Web使用挖掘技术处理个性化关键步骤,能够有效提供高质量个性化推荐服务。
   (3)教师可以通过e-Learning管理接口,设置挖掘参数和推荐参数,评估聚类和关联结果,提高了用户与系统的交互性,满足了个性化教学和因材施教的教学目标。
  四、结束语
   文章论述了一种依靠Web挖掘技术处理个性化关键步骤,在线阶段实时计算e-Learning大规模教育资源库中推荐项目的自适应推荐系统。在建模阶段,运用Web使用挖掘技术(聚类和关联规则挖掘)建立学习者模型;在推荐阶段,基于协作过滤实现学习对象个性化推荐。基于Web使用挖掘的e-Learning自适应推荐系统研究是一个带有挑战性的课题,目前我们正在研究在学习者模型中整合教育偏好(如学习方式、媒体类型等)的可能性,进一步提高学习对象推荐质量,更好地适应e-Learning个性化研究和发展需要。
  
  [参考文献]
  [1] 王实,高文.Web数据挖掘中的聚类方法[J].计算机科学,2000,27(4):28~31
  [2] Agrawal,R.,Srikant,R..Fast Algorithms for Mining Association Rules[A].Proceedings of the 20th International Conference on Very Large Databases[C].Santiago,Chile,1994.
  [3] Zhao,Y.,&Karypis,G.(2005).Hierarchical Clustering Algorithms for Document Datasets[J].Data Mining and Knowledge Discovery,2005,10(2):141~168.
  [4] [5] Mobasher,B.,Dai,H.,Luo,T.,Nakagawa,M.Effective Personalization Based on Association Rule Discovery from Web Usage Data[A].Proceedings of the 3rd ACM Workshop on Web Information and Data Management[C].New York:ACM,2001:9~15.
  
其他文献
[摘 要] 首先,从教育技术学理论的两种极端现象谈起,指出国内学科研究盲目地依附西方理论或沉溺国学经典。其次,分析教育技术学理论研究面临的八大窘境。再次,总结“创造性转化”外来理论的标准。最后,指出阻碍“创造性转化”的面子情结与懒惰情结,并表述正视两种极端现象的态度。  [关键词] 教育技术学; 单极化; 独立化; 创造性转化  [中图分类号] G40-057 [文献标志