基于生物实体语境的语音识别后文本纠错算法研究

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:lianjinshi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别技术是人机交互的重要手段,但由于环境噪音、话语人口音等因素,在实际应用环境中的语音识别正确率并不高。如何提高语音识别正确率是一个亟待解决的问题。本文从语音识别后文本处理角度对语音识别结果进行检错纠错,以达到优化语音识别的目的。本文将自然语言理解的方法应用于基于生物实体语境的语音识别后文本处理上,通过识别待纠错实例中的命名实体作为划分语境的标准,对语音识别后文本进行检错和纠错。在特定领域(生物医学领域)中的实验结果表明,本文算法在语音识别后文本纠错的正确率上比王兴建等基于词境的混淆词网纠错方式的正确率提高了42.4%。对于语音识别的鲁棒性研究具有一定的借鉴,本文的主要工作有:1.搭建网络爬虫,从相关网站获取原始语料,为实体语境库的建立提供相应的语料环境。2.应用命名实体识别技术,对特定领域(生物医学)进行实体词识别,从而建立相应的具有同一实体词的实体语境。3.通过对语音识别技术的研究,把音素这一语音识别过程中的关键声学建模因素加入到语音识别后文本纠错中,增加了语音识别后纠错的原始信息输入。4.研究相应的应用场景,通过改进型句子相似度计算方法,将其应用于本文的纠错框架中,取得了比较好的纠错效果。最终将上述的研究成果应用于完整的语音识别后文本纠错系统中,设计实现了纠错算法框架和实现步骤,进行对比实验,结果表明纠错效果比前人有一定提高。
其他文献
车辆排班算法主要关注于如何合理地、有效地安排车辆到相应的班次,以获得费用成本的最小化。在大型运动会中,我们不仅要给每个车辆准时指派到相应的场馆,而且还需要尽量减少
云计算是一种基于互联网的计算新方式,其核心思想就是将网络上的资源和能力进行更有效的分享,以达成高效率、低成本计算的目标。虚拟网络子系统作为基础设施云计算系统中必不
伴随着互联网的迅猛发展,网络中的数据量也成指数增长。这些网络数据很多都是以文本形式出现的。文本作为因特网中重要的信息载体,一直是相关领域的热门研究对象。在商业中,