论文部分内容阅读
近年来,教育领域涌现出了很多开放式互动学习平台,它们提供了丰富的互动内容,其中包括学习者对课程的评论。这些评论数据记录了学习群体在学习上遇到的困难,以及对课程资源和教学者的意见,这些意见信息在协助用户选课、改善教学质量和平台支持等方而均具有较大的价值。但是,大量课程评论所形成的反馈信息目前并未被有效利用。如何利用学习者的反馈信息为教学决策提供支持已成为研究者们思考的现实问题。因此迫切需要一套有效的方法,能对大量课程评论数据进行挖掘,从而为分析者提供直观、精确和有效的信息。本文旨在研究面向课程评论的情感倾向识别与话题挖掘技术,目的是希望将该技术应用于学习行为分析以及在线学习资源评价等方面,实现信息技术与教育的深度融合。本文以课程评论文本中蕴含的情感信息作为切入点,针对真实网络环境中文本数据的特征高维性、情感识别中训练数据标注的高代价性、潜在话题提取的不确定性问题,提出了“数据采集——文本特征提取——半监督情感识别——话题情感挖掘”的技术路线。根据该技术路线,我们首先对评论样本进行降维,并利用提取的特征集频率值来表示实验样本;然后采用一种半监督学习方法对含有大量无标记样本的训练集进行机器学习,并对构建的情感识别模型进行有效性验证;最后利用情感识别模型获取话题挖掘中待测样本的情感标签,在此基础上对所有待测样本集进行话题情感建模,提取出隐含的话题—情感分布信息,并将该模型分别用于课程单元和学习者个体的关键话题情感信息挖掘。本文得到了国家社会科学基金“面向高校青年网络行为的情感识别关键技术研究”(14BGL131)与国家科技支撑计划项目“网络行为安全与青少年发展关键技术研究与示范应用”(2011BAK08B00)的资助。论文的主要研究工作及创新之处包含以下几方面:(1)针对评论数据中存在的特征空间高维、高冗余性问题,提出了一种基于多空间微粒群优化的特征提取方法对N-gram特征进行筛选。通过对训练样本空间进行等粒度的交叉划分,在每个样本子空间上构建多组微粒群,经过多次迭代寻优,形成多组具有差异性的特征提取方案,然后整合这些提取方案,形成了最终的特征评估结果。实验结果表明,与传统的特征提取算法相比,该方法提取的特征具有更强的情感区分能力,且在提取低维特征时能够保持系统的识别准确性。(2)针对情感识别中训练样本的手动标注代价太大的问题,提出了一种基于自适应多视图选择的半监督情感识别算法。该算法引入情感词表计算N-gram特征的情感强度,根据情感强度的分布信息来选择特征视图,并在视图迭代选择中自适应地构建特征维度重要度的分布以确定每个视图采样的维度,最后形成较少数量的视图,对无标记样本进行集成筛选。筛选过程中,每次选取出标注置信度最高的样本来更新训练集,经过若干次迭代以完成半监督训练过程。实验结果表明,与传统的多视图半监督学习算法相比,提出的算法选取的特征视图差异度较大,在无标记样本的标注中置信度更高,并在最终的情感识别中表现出更高的识别准确率。此外,将评论的情感识别结果应用于在线课程的支持率预测中,与用户星级评价相比,情感识别产生的预测结果更接近于实际的情感态度分布。(3)由于课程评论中存在对课程多方面的评价信息,针对这种局部话题的挖掘,本文提出了一种基于确定性情感信息的话题挖掘方法。该方法利用情感识别阶段训练的情感识别模型获取待测样本的情感标签信息,并建立“情感—文本”和“文本—话题—句子”的依赖关系以训练话题—情感模型。为了检测评论中的局部话题,该模型并没有直接对每篇评论建模,而是对评论中关键情感语句进行建模,并假设评论中每个语句中的单词均只涉及一种情感倾向和一种话题,充分考虑到不同语句单元间的话题关联性。实验结果表明,与传统的Author-Topic模型相比,提出的方法具有更强的泛化能力,提取出的话题间相似度更低,且话题内单词表示的聚合度更高。最后,将该模型应用于课程单元与学习者个体的话题情感挖掘中,采用情感一话题一单词的概率分布来表示每个课程单元或学习者个体的关键话题信息。