论文部分内容阅读
言语障碍通常指的是包括语言能力、说话能力和听觉等沟通问题的总称。在我国儿童群体中,言语障碍的发病率较高,且研究表明,言语障碍对儿童的健康成长影响很大,容易对儿童认知功能的发展和心理发育造成影响,进而出现情绪和行为上的问题。但同时有很多研究表明,在言语障碍中占比最高的功能性构音障碍儿童在言语获得的早期经过及时的干预和治疗后,可以取得很大改善甚至完全康复,故对学前儿童言语功能做综合客观评估至关重要,可为患儿创造及时确诊的机会,以便采取有针对性的策略进行干预和康复治疗。本论文主要研究针对学前儿童的言语功能自动评估系统。该系统基于语音识别和语音信号处理技术,对儿童言语系统的构音功能和发声功能进行可靠、便捷、实时的综合评估。同时,评估系统基于语音识别技术,且研究表明,基于语音识别的言语自动评估系统性能与语音识别系统本身高度相关。因此,本系统还根据中文儿童发音的特点,分析了Pitch特征、语速扰动、音量扰动对儿童语音识别性能影响,并进一步分析这些因素对言语功能自动评估系统的影响。最后,还基于声强检测和基频检测算法对正常儿童和构音障碍儿童语音的声强和基频分布做统计分析。通过实验发现,增加Pitch特征提升了学前儿童ASR系统的性能,在不同测试集上字错率均有下降。对于评估系统的影响,该因素虽然改变了GOP阈值与相关系数的关系曲线,但并没有提升构音清晰度评估相关系数的峰值。在测试集与训练集匹配的情况下,在模型训练中增加语速扰动和音量扰动均在一定程度上提升了儿童语音识别系统的识别率。而在测试集与训练集不匹配的情况下,如功能性构音障碍儿童测试集,语速扰动训练后的声学模型识别正确率更低,而音量扰动训练后的声学模型识别正确率显著增高。对于评估系统而言,两个扰动因素的影响刚好相反,在基线模型基础上,语速扰动因素使构音清晰度评估相关系数显著提升,而音量扰动因素则使构音清晰度评估系统性能明显下降。为分析学前儿童的构音清晰度与声母和韵母的关系,我们单独基于声母和韵母来评估儿童的构音清晰度,发现学前儿童的构音清晰度更多的反映在声母的发音上。更进一步,我们统计和分析人工标注和自动评估的音素错误率,发现两者在复韵母和声母上具有显著的相关性,可作为构音清晰度的客观评估工具。最后,对正常儿童与构音障碍儿童发音的韵母持续时长、声强和基频按年龄与性别统计发现,构音障碍儿童比正常儿童的单韵母持续时间更长,同一性别和年龄的两组儿童在声强和基频上存在显著性差异,但这种差异并不一致。而且,构音障碍儿童在这三个统计数据的分布上比正常儿童更加分散,存在较大的个体间差异。