面向转录文本的语音识别错误检测和纠正方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:tanshuyao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别技术已经随着深度学习的发展取得了很多进步,识别结果的准确性得到了极大的提升。尽管如此,受说话人发音、录制环境、主题领域等不匹配的影响,识别错误仍在所难免。语音识别得到的转录文本会成为许多自然语言处理任务的待分析输入,如自然语言理解,机器翻译等。语音识别的正确率将直接影响以转录文本为输入的下游任务的性能。考虑到语音识别模型复杂度高,是语言学和语音学知识的高度耦合,性能提升难度大,因而对语音识别结果进行错误检测和纠正从而提高转录文本正确率是近年来兴起的一种有效技术手段。鉴于下游文本处理任务可能采用第三方的语音识别器,或采用端到端模型的,因而无法获得中间解码信。所以,仅基于转录文本的检错纠错技术,是一种更具普适性的错误处理方式。针对以上问题,本文采用深度学习对转录文本中的语音识别错误进行检测和纠正。针对转录文本中错误模式的特点,如标签不均衡、序列到序列的映射、以及检错和纠错结果相互依赖等,提出端到端的检错和纠错深度模型。论文的主要内容如下:(1)数据不均衡条件下的语音识别错误检测方法检错可以看作是一个分类问题,对转录文本中的每一个词进行正确或错识的分类判决。随着语音识别性能的不断提升,一般情况下,每句转录文本中仅包含少量的错误转录词汇。这就意味着,在利用转录文本中的错识标签和正确标签对检错网络进行训练时,存在类别数据极不均衡的问题。本文提出使用Focal Loss损失函数,替换传统的交叉熵损失函数,在训练过程中抑制正例样本,使得模型侧重向难分类的、少量的负例样本的方向进行优化,从而有效提升了检错性能。(2)基于注意力机制的语音识别错误纠正方法纠错可以看作是一个序列到序列的映射问题,从输入的转录文本映射到正确的参考文本。由于转录文本中的语音识别错误可以看作是领域不匹配导致的结果,即训练语音识别器的数据域不匹配于语音识别任务中的任务数据域,因而转录文本可以看作是参考文本的域外表示。本文提出一种基于注意力机制的端到端深度模型,实现不同领域间文本的映射。该模型能自动实现语法和拼写的纠错并改善转录文本的可读性。实验结果证明了该模型在语音识别结果纠错任务上的有效性。(3)基于错误先验和迁移学习的语音识别错误纠正方法针对端到端模型利用上下文语法知识对整个转录文本进行纠错处理时存在着将正确词汇修改成错误词汇的现象,论文通过引入错误先验知识来避免这种错纠的发生。在训练纠错模型时,将预先训练好的检错模型参数迁移学习到纠错模型的编码器部分,从而在纠错时可以利用检错模型所蕴含的知识,捕获该语音识别器的特定错误模式,避免错纠。实验结果表明该方法能有效提升纠错性能。
其他文献
随着计算机网络和多媒体技术的发展,各类多媒体数据总量呈现出爆炸式的增长,云服务器中存储、处理的多媒体数据也呈指数增加。然而,由于云平台的开放性,导致以生动直观为特点
Markovian跳跃系统的故障检测问题是当前研究的热点问题之一,在航空航天、船舶、小型控制机器等领域都有着重要的应用。相关研究方法可以使系统对于复杂指令所带来的潜在故障
随着数字图像技术和互联网技术的高速发展,对于图像修复技术的应用越来越广泛。图像修复问题在图像处理领域有着非常坚实的技术基础,且对其他有所关联的图像处理任务可以提供
现如今,随着计算机超强计算能力和巨大存储能力的提升,以及社会对于安保的需求,监控设备被安装布置在各个地方的不同场景中。同时随着人工智能的发展,使得人们已经不满足于使
秸秆还田作为耕地土壤培肥的主要途径,不仅可以提高土壤肥力,还能够改善土壤结构。本文通过采用尼龙网袋法进行秸秆还田的原位模拟实验,比较不同秸秆还田量在不同深度下还田两年对土壤微团聚体组成及稳定性、微团聚体有机碳含量和腐殖质组成的影响,试验设置秸秆还田量R0(0%)、R1(0.44%)、R2(0.88%)、R3(1.32%)和0-15,15-30,30-45cm三个不同还田深度交叉处理。胶体动电电位的
近年来,细胞免疫治疗尤其是CAR-T技术成为肿瘤治疗领域的研究热点。目前CAR-T细胞治疗采用的基因转染方法多为病毒转染法,该方法在操作上繁琐,并且存在随机插入导致癌变的潜
肿瘤是一种细胞周期性疾病,严重威胁人类健康。细胞周期依赖性激酶(cyclin dependent kinase,CDK)是一类丝氨酸/苏氨酸(Ser/Thr)蛋白激酶,负责调控细胞周期的进程。其中直接参与
在互联网大潮的推动下,IP地址定位技术在当今社会体现出越来越重要的作用。广告商可以通过定位用户所使用的IP地址得到用户的位置信息,从而进行精准的广告投放;运营商可以通
近年来,推荐系统已经成为许多网络应用必不可少的组成部分。虽然推荐算法在各种网络应用中都取得了很大的成功,但数据稀疏问题依然是影响推荐质量的重要瓶颈之一。为了解决这
高等教育大众化发展的今天,人才能力和身心的全面发展是高等院校人才培养的共同目标。能力和身心健康培养的起点恰是中学生到大学生角色转变的开始,中学封闭的学习环境和略显