论文部分内容阅读
目前模式识别技术在各个领域中得到应用。手语识别技术、人脸表情识别技术以及情感语音合成技术都得到了很好的发展。但是目前大多是对手语识别、人脸表情识别以及情感语音合成方法三个方面的研究方向分别进行研究。尽管有关手语到语音的转换研究已经得到了实现,但是转换后的语音不能表达情感信息,当聋哑者与正常人进行交流的时候,他们往往会因为缺乏情感表达而理解歧义。本文针对言语障碍者的日常交流障碍问题,提出了一种融合人脸表情的手语到情感语音转换的方法。首先使用深度置信网络(Deep Belief Network,DBN)方法与深度神经网络(Deep Neural Network,DNN)方法分别得到两种手语库中预定义的手语特征,并通过DNN方法获得人脸表情特征。其次采用支持向量机(Support Vector Machine,SVM)分别进行分类,并分别获得手语文本及相应的情感标签。同时,利用普通话情感训练语料,分别采用隐Markov模型(Hidden Markov Model,HMM)方法和DNN方法,搭建了一个情感语音合成平台。最后,利用识别获得的手语文本和情感标签,将手语及人脸表情转换为普通话或藏语的情感语音。论文的主要工作与创新如下:1.识别了两种手语库并获得了手语的上下文相关标注。首先,针对30种中国字母手语,利用DBN模型提取手语特征,并结合SVM进行识别分类;针对36种美国手语,利用DNN模型进行特征提取,并采用SVM识别分类。然后,将通过手语识别得到的手语类别利用设计好的手语字典进行查找从而得到了手语文本。最终通过文本分析程序将得到的手语文本进行分析进而得到了手语文本的声韵母信息以及它的上下文信息。通过上下文相关标注形式来表示声韵母的上下文信息,其中包含普通话或者藏语声韵母信息、音节信息、词信息、韵律词信息、短语信息以及语句信息共6层信息。2.识别了两种人脸表情库并获得了情感标签。首先,通过利用DNN模型对扩充的Cohn-Kanade数据库(the extended Cohn-Kanade database,CK+)以及日本女性面部表情(Japanese female facial expression,JAFFE)数据库两种人脸表情数据库进行表情特征提取,并利用SVM识别分类。然后,通过利用人脸表情识别部分得到的情感标签,去选择对应的情感语音声学模型,进而能够通过语音合成平台合成出对应情感的语音。3.实现了手语到情感语音合成。首先,采用基于HMM的方法去训练情感声学模型,同时利用说话人自适应变换的方法得到目标情感声学模型,实现了汉藏双语情感语音合成。其次,利用基于DNN的说话人自适应方法,获得目标情感语音模型,实现了情感语音合成。最后利用DNN进行声学模型训练,再利用说话人自适应(DNN)方法,实现了汉藏双语情感语音合成。