论文部分内容阅读
随着深度学习浪潮的席卷,深度的语音识别技术逐渐替代了基于GMM-HMM的传统语音识别模型,成为语音识别领域主流的方向。空中交通管制(Air Traffic Control,ATC)通话是空中交通管制员与飞行员之间通信的主要形式,ATC语音识别在空管训练系统以及陆空通话实时监控系统中起着重要的作用,基于此背景,本文针对ATC语音识别展开研究。首先,本文设计并实现了仅有少量标注的ATC语音识别系统。考虑标注样本不充分的特点,本文以音节为建模单元,采用BLSTM(Bidirectional Long Short Term Memory)+CTC(Connectionist Temporal Classification)构建其声学模型,并利用Transformer模型构建音节到字的语言模型,将声学模型识别出的音节转换成字。实验表明该系统获得了可接受的识别效果。其次,针对具有大量标注的ATC语音数据,本文设计并实现了FC-N-BLSTM+CTC(Fully Connected layer,FC,N指FC层数)和DFCNN(Deep Fully Convolutional Neural Network)+CTC两个声学模型。FC-3-BLSTM+CTC 取得了9.6%字错率,但是基于BLSTM方法的训练时间和解码时间相对较长。DFCNN+CTC的字错率相较于BLSTM+CTC,升高了0.5%,但其训练时间和解码时间优于BLSTM+CTC,避免了BLSTM训练、解码耗时的问题。最后,为了解决人工筛选错误样本耗时的问题,本文利用两个训练好的声学模型FC-3-BLSTM+CTC和DFCNN+CTC对已标记数据进行自动查错,提高了查错效率。使用纠错后的数据进行声模型的重新训练,获得更好的识别效果。