论文部分内容阅读
语音识别技术是人机交互的重要手段,但由于环境噪音、话语人口音等因素,在实际应用环境中的语音识别正确率并不高。如何提高语音识别正确率是一个亟待解决的问题。本文从语音识别后文本处理角度对语音识别结果进行检错纠错,以达到优化语音识别的目的。本文将自然语言理解的方法应用于基于生物实体语境的语音识别后文本处理上,通过识别待纠错实例中的命名实体作为划分语境的标准,对语音识别后文本进行检错和纠错。在特定领域(生物医学领域)中的实验结果表明,本文算法在语音识别后文本纠错的正确率上比王兴建等基于词境的混淆词网纠错方式的正确率提高了42.4%。对于语音识别的鲁棒性研究具有一定的借鉴,本文的主要工作有:1.搭建网络爬虫,从相关网站获取原始语料,为实体语境库的建立提供相应的语料环境。2.应用命名实体识别技术,对特定领域(生物医学)进行实体词识别,从而建立相应的具有同一实体词的实体语境。3.通过对语音识别技术的研究,把音素这一语音识别过程中的关键声学建模因素加入到语音识别后文本纠错中,增加了语音识别后纠错的原始信息输入。4.研究相应的应用场景,通过改进型句子相似度计算方法,将其应用于本文的纠错框架中,取得了比较好的纠错效果。最终将上述的研究成果应用于完整的语音识别后文本纠错系统中,设计实现了纠错算法框架和实现步骤,进行对比实验,结果表明纠错效果比前人有一定提高。