课程评论的情感倾向识别与话题挖掘技术研究

被引量 : 23次 | 上传用户:jiangyuchao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,教育领域涌现出了很多开放式互动学习平台,它们提供了丰富的互动内容,其中包括学习者对课程的评论。这些评论数据记录了学习群体在学习上遇到的困难,以及对课程资源和教学者的意见,这些意见信息在协助用户选课、改善教学质量和平台支持等方而均具有较大的价值。但是,大量课程评论所形成的反馈信息目前并未被有效利用。如何利用学习者的反馈信息为教学决策提供支持已成为研究者们思考的现实问题。因此迫切需要一套有效的方法,能对大量课程评论数据进行挖掘,从而为分析者提供直观、精确和有效的信息。本文旨在研究面向课程评论的情感倾向识别与话题挖掘技术,目的是希望将该技术应用于学习行为分析以及在线学习资源评价等方面,实现信息技术与教育的深度融合。本文以课程评论文本中蕴含的情感信息作为切入点,针对真实网络环境中文本数据的特征高维性、情感识别中训练数据标注的高代价性、潜在话题提取的不确定性问题,提出了“数据采集——文本特征提取——半监督情感识别——话题情感挖掘”的技术路线。根据该技术路线,我们首先对评论样本进行降维,并利用提取的特征集频率值来表示实验样本;然后采用一种半监督学习方法对含有大量无标记样本的训练集进行机器学习,并对构建的情感识别模型进行有效性验证;最后利用情感识别模型获取话题挖掘中待测样本的情感标签,在此基础上对所有待测样本集进行话题情感建模,提取出隐含的话题—情感分布信息,并将该模型分别用于课程单元和学习者个体的关键话题情感信息挖掘。本文得到了国家社会科学基金“面向高校青年网络行为的情感识别关键技术研究”(14BGL131)与国家科技支撑计划项目“网络行为安全与青少年发展关键技术研究与示范应用”(2011BAK08B00)的资助。论文的主要研究工作及创新之处包含以下几方面:(1)针对评论数据中存在的特征空间高维、高冗余性问题,提出了一种基于多空间微粒群优化的特征提取方法对N-gram特征进行筛选。通过对训练样本空间进行等粒度的交叉划分,在每个样本子空间上构建多组微粒群,经过多次迭代寻优,形成多组具有差异性的特征提取方案,然后整合这些提取方案,形成了最终的特征评估结果。实验结果表明,与传统的特征提取算法相比,该方法提取的特征具有更强的情感区分能力,且在提取低维特征时能够保持系统的识别准确性。(2)针对情感识别中训练样本的手动标注代价太大的问题,提出了一种基于自适应多视图选择的半监督情感识别算法。该算法引入情感词表计算N-gram特征的情感强度,根据情感强度的分布信息来选择特征视图,并在视图迭代选择中自适应地构建特征维度重要度的分布以确定每个视图采样的维度,最后形成较少数量的视图,对无标记样本进行集成筛选。筛选过程中,每次选取出标注置信度最高的样本来更新训练集,经过若干次迭代以完成半监督训练过程。实验结果表明,与传统的多视图半监督学习算法相比,提出的算法选取的特征视图差异度较大,在无标记样本的标注中置信度更高,并在最终的情感识别中表现出更高的识别准确率。此外,将评论的情感识别结果应用于在线课程的支持率预测中,与用户星级评价相比,情感识别产生的预测结果更接近于实际的情感态度分布。(3)由于课程评论中存在对课程多方面的评价信息,针对这种局部话题的挖掘,本文提出了一种基于确定性情感信息的话题挖掘方法。该方法利用情感识别阶段训练的情感识别模型获取待测样本的情感标签信息,并建立“情感—文本”和“文本—话题—句子”的依赖关系以训练话题—情感模型。为了检测评论中的局部话题,该模型并没有直接对每篇评论建模,而是对评论中关键情感语句进行建模,并假设评论中每个语句中的单词均只涉及一种情感倾向和一种话题,充分考虑到不同语句单元间的话题关联性。实验结果表明,与传统的Author-Topic模型相比,提出的方法具有更强的泛化能力,提取出的话题间相似度更低,且话题内单词表示的聚合度更高。最后,将该模型应用于课程单元与学习者个体的话题情感挖掘中,采用情感一话题一单词的概率分布来表示每个课程单元或学习者个体的关键话题信息。
其他文献
银团贷款是指数家具备贷款资格的金融机关共同向一个借款人提供巨额商业贷款的融资方式,其中组建银团贷款的工作由借款人委任的牵头行来完成。银团贷款作为一种新型的融资方式
旅游业持续发展,为我国经社会济的快速发展注入了新的活力。据世界旅游组织预测,中国将在2020年成为世界第一大旅游接待国和世界第四大旅游客源输出国,届时中国的旅游收入将占国
由于我国刑法对敲诈勒索罪的规定太过笼统,而司法实践中的案件又极其复杂,所以理论界和实务界对敲诈勒索罪的认定都有不少争议,从而引发了敲诈勒索罪司法认定中的诸多问题。
近几年全国范围内数字电视已经逐步取代模拟电视,被广大用户所接受,各地的广电系统通过推出付费数字电视节目、高清数字电视节目、互动数字电视点播等获得增值收入。随着“后
就业作为民生之本,随着高校扩招也导致硕士研究生越来越多,就业形势不容乐观,而女硕士研究生已占到硕士研究生一大半,女硕士研究生的就业状况是否如新闻媒体上报道的那样严峻
本文对三种不同的湿度测量方法进行了实验比较,通过分析,提出了较准确的湿度测量方法.
语言既有精确性,也有模糊性。同精确语言一样,模糊语言也是一种有效的表意手段,而交际中的模糊语言及其语用功能也越来越受到人们的重视。外贸函电,作为国际贸易往来的重要组成部
面对日益复杂的改革环境和繁重的深层次改革任务,加强改革的顶层设计已经成为进一步深化改革的重要战略选择。为了减少改革的盲目性,降低整体性改革的风险成本,在凝聚改革共
2006年8月9日,谷歌公司率先在搜索引擎大会上首次提出了“云计算”的概念,并逐步走向政府、电信、教育、医疗、金融、石油石化和电力等各个行业的应用。如今“云计算”已经风
目的:通过检测冠心病患者及冠脉造影正常的非冠心病者的血浆Lp-PLA2及hs-CRP水平,探讨血浆Lp-PLA2及hs-CRP水平与急性冠脉综合征(ACS)患者冠脉病变范围及粥样斑块稳定性之间的