基于词激活力的长距离语言模型研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:daimao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言模型是语音识别的一项关键技术,也是语音识别的研究热点。语言模型的建模一直面临着两大问题:数据稀疏和长距离信息的缺失。本文采用基于词激活力的语言模型建模及平滑方法挖掘语料库文本的句法和语义信息,实验证明了词激活力可高效挖掘大文本中潜在的语义信息,这些语义信息符合人们自然语言的用语规则。本文的主要研究工作与创新包括以下几个方面:1.提出了基于词激活力的长距离语言模型建模和平滑。采用词激活力进行长距离语言模型的建模,同时插值长距离语言模型与传统n-gram语言模型。实验表明词激活力长距离语言模型既包含有局部信息,也包含有长距离的全局信息,能够很好的对文本建模。使用词激活力获取文本的长距离信息进行语言模型平滑。实验表明,词激活力平滑方法的效果显著。2.研究了潜在语义分析的语言模型把潜在语义分析运用于语言模型平滑,利用奇异值分解技术把词项-文档的高维度空间映射到低维度的潜在语义空间,提取同义词进行语言模型平滑,实验表明该模型在解决数据稀疏的问题上有明显的优势。3.提出一种改进的词类语言模型平滑算法基于词激活力的亲近度聚类,从类中获取多个高亲近度的词加权平滑词类的语言模型,该模型解决了传统词类语言模型由于同等对待同一类别的词而导致词间区分性低的问题。基于词激活力的亲近度词类语言模型平滑的实验结果表明这种融入长距离信息的语义平滑方法保留了相邻词的高区分性,同时对小概率事件有高效的预测功能。
其他文献
被子植物双受精过程中的信号转导一直是植物学家关注的热点。早期对植物有性生殖信号途径的研究主要集中在钙信号方面。与此相比,对受精过程中其它信号因子的研究十分有限。近
随着新课程的不断改革,教育界对小学识字教学提出了更新更高的要求,要求语文教师加强对夯实小学生语文学习基础的重视,不断探索并创新有趣的识字教学方法,使学生逐渐产生认识
“生长式”是一种习作以铸造学生健康立体的人格为出发点,以提升学生生长式习作智力水平为核心,以促进学生生长式习作方式转变为通道的习作教学模式.本文主要从关注学生需求
在语文教学过程当中的重点任务是培养学生的学习能力,促进学生语文学习思维的提升.教师在进行课堂教学的过程当中起着十分关键的作用,适当地对学生进行引导能够有效地促使学
本文通过对荣华二采区10
期刊
随着时代的发展,我国社会越来越重视学生核心素养的培养,小学语文就是培养学生核心素养的重要载体之一,而口语交际能力培养又是小学语文的重要组成部分,小学语文教师应当以新
本文将立足高中语文课堂,分析“自学·议论·引导”教学策略,以期为语文教学提供参考意见,提高学生的自主学习能力、交流协作能力和语文学习能力,为关注此话题的人们提供参考