发音器官的运动与声学信号之间映射关系的研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:wlliser3d
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
建立发音器官运动与语音信号间的映射关系对于发音训练以及言语矫正有着很重要的作用。本文通过语音记录仪记录中文六个元音(a,o,e,i,u,ü)发音时的语音信号,利用超声仪记录发音时舌头运动的信息,使用高速摄像头记录发音运动时唇部正面和侧面的信息,从而形成了一个中文元音多模态语音数据库。本文提出了一个基于深度学习框架的发音器官运动与声学信号间的双向映射方法。利用基于受限玻尔兹曼机的深度自编码网络方法对发音器官运动信息与声学信号进行了特征提取与重构。重构结果发现,对于超声图像,基于深度学习的特征提取的方法比主成分分析的方法要好;音频信号也能够利用深度自编码网络的方法来表征。然后,我们提出了一个基于深度学习的框架实现两者间的映射关系,该框架是通过深度降噪自编码网络进行改进而来。可以在中文元音数据库上实现语音信号来驱动发音器官的运动,以及发音器官的运动来合成语音信号。并且用传统的基于混合高斯模型的方法与之对比,发现我们提出的方法有更好的效果。最后,我们将该映射框架应用在中文连续语音上,并取得了一定的效果。
其他文献
行人再识别技术作为视频分析中重点的研究内容之一,吸引了大批学者的关注。该技术是根据提取的行人视觉特征,在跨摄像头的情况下判断给定行人是否为相同行人。目前,行人再识
随着计算机及网络技术的发展,企业网络基础设施日益完备,建立了若干支撑企业运营的IT系统,如销售系统、客户管理(CRM)系统、人事信息系统、财务信息系统、邮件系统等。这些系
软件测试是一门黑色艺术,黑色意味着测试人员必须从心理上接受测试是经历一个对程序施虐和施暴的过程;艺术意味着测试人员必须从经济学的角度巧妙的制定测试策略,来完成整个
随着计算机处理能力日益增强,因特网(Internet)技术的广泛普及和网络带宽不断提高,大量的信息也不断地产生,在这些不断扩大的信息中寻找需要的资源也就成为一个问题。而另一
随着互联网技术的迅速发展,网络流量及可用带宽的急速增加,人们的生活越来越离不开网络.但与此同时,各种网络相关问题也随之而来,例如蠕虫病毒,网络拥塞等.要想了解并解决这
边缘勾勒是中国传统绘画特有的一种绘画方式,其形成的线描画具有独特的美学价值。高质量的壁画线描画中,线条定位应当准确、并且线条宽度能够反映壁画线描笔道的原有风格。为
入侵检测技术是一种主动的信息安全保障措施,已成为现代计算机系统安全技术中的研究热点。它的主要任务是按照一定的策略,对网络的运行状况进行监视,尽可能发现各种攻击行为,
随着多媒体、网络技术的飞速发展,人们越来越多地接触到大量的图像信息。如何快速、准确地检索出所需要的信息便成为当今检索领域的研究热点。基于内容的图像检索(Content Ba
本文利用理论推导和数值模拟相结合的方法研究了超混沌Qi系统的构造和基于函数调制的数字混沌保密通信,作者的主要工作如下:(1)在Qi系统中添加非线性控制器的线性项和非线性
移动Ad Hoc网络是由一组带无线收发装置的移动节点组成、不需要依靠固定基础设施、没有任何中心实体、多跳、自组织的对等通讯网络。由于其组网灵活,使用方便,得到了国际军事