论文部分内容阅读
语音识别技术已经随着深度学习的发展取得了很多进步,识别结果的准确性得到了极大的提升。尽管如此,受说话人发音、录制环境、主题领域等不匹配的影响,识别错误仍在所难免。语音识别得到的转录文本会成为许多自然语言处理任务的待分析输入,如自然语言理解,机器翻译等。语音识别的正确率将直接影响以转录文本为输入的下游任务的性能。考虑到语音识别模型复杂度高,是语言学和语音学知识的高度耦合,性能提升难度大,因而对语音识别结果进行错误检测和纠正从而提高转录文本正确率是近年来兴起的一种有效技术手段。鉴于下游文本处理任务可能采用第三方的语音识别器,或采用端到端模型的,因而无法获得中间解码信。所以,仅基于转录文本的检错纠错技术,是一种更具普适性的错误处理方式。针对以上问题,本文采用深度学习对转录文本中的语音识别错误进行检测和纠正。针对转录文本中错误模式的特点,如标签不均衡、序列到序列的映射、以及检错和纠错结果相互依赖等,提出端到端的检错和纠错深度模型。论文的主要内容如下:(1)数据不均衡条件下的语音识别错误检测方法检错可以看作是一个分类问题,对转录文本中的每一个词进行正确或错识的分类判决。随着语音识别性能的不断提升,一般情况下,每句转录文本中仅包含少量的错误转录词汇。这就意味着,在利用转录文本中的错识标签和正确标签对检错网络进行训练时,存在类别数据极不均衡的问题。本文提出使用Focal Loss损失函数,替换传统的交叉熵损失函数,在训练过程中抑制正例样本,使得模型侧重向难分类的、少量的负例样本的方向进行优化,从而有效提升了检错性能。(2)基于注意力机制的语音识别错误纠正方法纠错可以看作是一个序列到序列的映射问题,从输入的转录文本映射到正确的参考文本。由于转录文本中的语音识别错误可以看作是领域不匹配导致的结果,即训练语音识别器的数据域不匹配于语音识别任务中的任务数据域,因而转录文本可以看作是参考文本的域外表示。本文提出一种基于注意力机制的端到端深度模型,实现不同领域间文本的映射。该模型能自动实现语法和拼写的纠错并改善转录文本的可读性。实验结果证明了该模型在语音识别结果纠错任务上的有效性。(3)基于错误先验和迁移学习的语音识别错误纠正方法针对端到端模型利用上下文语法知识对整个转录文本进行纠错处理时存在着将正确词汇修改成错误词汇的现象,论文通过引入错误先验知识来避免这种错纠的发生。在训练纠错模型时,将预先训练好的检错模型参数迁移学习到纠错模型的编码器部分,从而在纠错时可以利用检错模型所蕴含的知识,捕获该语音识别器的特定错误模式,避免错纠。实验结果表明该方法能有效提升纠错性能。