论文部分内容阅读
语言模型是语音识别的一项关键技术,也是语音识别的研究热点。语言模型的建模一直面临着两大问题:数据稀疏和长距离信息的缺失。本文采用基于词激活力的语言模型建模及平滑方法挖掘语料库文本的句法和语义信息,实验证明了词激活力可高效挖掘大文本中潜在的语义信息,这些语义信息符合人们自然语言的用语规则。本文的主要研究工作与创新包括以下几个方面:1.提出了基于词激活力的长距离语言模型建模和平滑。采用词激活力进行长距离语言模型的建模,同时插值长距离语言模型与传统n-gram语言模型。实验表明词激活力长距离语言模型既包含有局部信息,也包含有长距离的全局信息,能够很好的对文本建模。使用词激活力获取文本的长距离信息进行语言模型平滑。实验表明,词激活力平滑方法的效果显著。2.研究了潜在语义分析的语言模型把潜在语义分析运用于语言模型平滑,利用奇异值分解技术把词项-文档的高维度空间映射到低维度的潜在语义空间,提取同义词进行语言模型平滑,实验表明该模型在解决数据稀疏的问题上有明显的优势。3.提出一种改进的词类语言模型平滑算法基于词激活力的亲近度聚类,从类中获取多个高亲近度的词加权平滑词类的语言模型,该模型解决了传统词类语言模型由于同等对待同一类别的词而导致词间区分性低的问题。基于词激活力的亲近度词类语言模型平滑的实验结果表明这种融入长距离信息的语义平滑方法保留了相邻词的高区分性,同时对小概率事件有高效的预测功能。