论文部分内容阅读
互联网技术的高速发展加快了大数据时代的来临,汉语言教学素材在互联网上急速聚集,在为语言学习者提供丰富资源的同时,也增加了他们选材的难度。研究推荐方法和技术是实现在浩如烟海的网络资源中,快速、准确定位优质汉语言教学素材的有效途径。为此,教学素材的推荐工作也得到了领域专家的高度重视,但遗憾的是,围绕教材编纂、同步学习等方面的推荐方法的研究还不够充分。随着以数据挖掘为主要代表的大数据分析技术不断发展,为研究汉语言教学素材的推荐方法奠定了基础。鉴于此,本文充分考虑学习者的认知特点,借助文本大数据处理与分析技术,从“学”,“读”,“练”三个角度探索了语文教材选文、语文课程同步读物及个性化习题的推荐方法,主要分为三个部分:首先,探讨了文本类教学素材的量化过程,提出了可捕获文本语义信息的文本矩阵表示方法。在广泛收集学生日常用语和读物的基础上,通过分词、词频统计、词聚类和词包分解等操作,生成词汇序表,并充分考虑学生的认知特点和接受度,确定各学段的必学词汇表。而后,基于必学词汇表,给出了半自动化的语文教材选文推荐方法,并通过实验验证了该方法可有效地提高教材选编的自动化程度。其次,为配合“读写”教学法的推广,避免字词强化教学方法的不足,本文系统研究了课程同步读物推荐方法,力求通过推荐符合学生学习规律、与课程学习相同步的读物,助力读中学、学为读的教学方法的推广。本研究以艾宾浩斯遗忘曲线和“i+1”输入原则为推荐依据,设计了基于旋卷式分类的课程同步读物推荐算法,实现为学生推荐与课文匹配度较高的读物。同时,通过实验验证了本文方法的实用性。最后,研究了个性化习题推荐技术。本文提出了题向量编码方法,讨论了习题之间的伴生现象,构建了基于深度学习的题向量化模型,设计了高效的负采样训练方法,用以捕获习题间的伴生关系,生成题向量。借助题向量,可方便地计算习题间的关联度。对于那些关联度高的习题,通常具有伴生出错的现象,基于该现象,可根据学生的错题进行重点推荐。实验结果表明,题向量能较为准确地分析出习题间的关联关系并预测特定个体的易错习题,较相关算法具有明显优势。