论文部分内容阅读
大同市地处山西省最北部,其地方方言是晋语的重要组成部分,该地区的语言特点相比于晋中和晋南的方言复杂度更低。对该区域方言的语音识别的研究可以为山西地方方言语音识别技术的研究奠定良好的技术基础。本文首先介绍了大同方言的语言特点及大同方言语音数据集的构建过程,语音数据集将应用于大同方言语音识别模型的训练。大同方言与普通话在语法、发音等方面有着较大的差异,相比于普通话多出了“入声”声调。因入声发音短促,一发即收,音频的持续时间更短,所以入声特征在语谱图中的频谱范围更小,使得语音的频谱表示更为复杂,针对这一问题,结合卷积神经网络的结构特性,本文提出了一种“多核卷积融合网络(MCFN)”来提取语谱图中不同持续时长的音素特征,该结构可附加于声学模型之前,增强声学模型的鲁棒性。此外,本文还结合注意力机制构建了端到端的大同方言语音翻译模型,该模型把大同方言与普通话视为两种不同的语言,通过将大同方言的语音信号特征输入至端到端的语音翻译模型并映射成高维度的特征,再与中文普通话文本形成对应关系,输出结果,该模型可直接使方言语音与普通话文本建立联系,无需方言文本作为过渡,减少了方言文本的质量问题给模型带来的消极影响。MCFN与端到端的语音翻译模型协同工作,可完成大同方言语音转普通话文本的任务,实验证明效果良好。对大同方言语音识别技术的研究不仅可以拓宽语音识别用户群体,方便那些口音严重的用户进行人机交互的活动,还可以应用于身份认证和医疗辅助诊断等领域。此外,本课题对保护山西地方方言这一非物质文化遗产、增进全国无障碍语言交流有重要意义。