论文部分内容阅读
人际语言交流是一个多模态信息处理过程。除了承载语义信息的语音以外,人的面部表情和肢体动作也对语言的理解和交流起到一定的作用。认知心理学的实验结果表明,相比于单一的听觉输入,来自听觉、视觉的多模态信息对于语音的理解具有很大的作用。特别值得一提的是,对于有听力障碍的人而言,有效的唇读和对说话者面部表情和肢体语言的把握可以帮助他们准确地推断、理解说话者的意图。此外,对于语言学习者而言,了解发音时唇部、上下颚以及舌头等发音器官的运动状况等信息,对于提高语言的学习效果具有指导意义。本研究以发音的3D可视化为研究主线,以人机语音交互为研究背景,从理论、方法和系统三个层面探讨发音器官的3D可视化问题,重点研究相关的发音器官建模、运动模拟和发音的准确性评估等问题。希望通过研究,构建一个可以产生同步语音动画的可视化三维虚拟人头及其口腔系统。选题对于发音的3D可视化、语言教学乃至人机交互都将起到积极的推进作用,具有重要的理论意义和潜在的应用前景。论文的主要研究内容和创新点如下:1.针对口腔内发音器官非完全可见或完全非可见的情况,从发音器官可视化的角度出发,研究了口腔内发音器官的建模和运动模拟问题。首先采用医学影像技术获取这些发音器官的形状数据,然后通过对矢状位与横断位多层切面的核磁共振图像(Magnetic Resonance Imaging, MRI)进行预处理和形状网格化操作获得其三维静态表观模型,并根据发音器官是否可形变的特点,给出相应的运动模拟方法。具体言之,对于牙齿、硬腭以及下颚这些在发音过程中仅产生微小形变,甚至不产生形变的发音器官,将其看作刚体并进行运动模拟:而对于舌头、软腭这些在发音过程中产生大量形变的发音器官,则引入弹簧网模型来模拟其形变效果,并利用采集的Electromagnetic Articulography (EMA)数据来驱动和控制其运动。最终,通过实验实现了汉语发音的发音器官运动模拟。2.针对发音器官在运动模拟过程中可能出现的相互穿越问题,提出了一种可有效应用于口腔内可形变发音器官的碰撞检测和处理的方法。根据需要将可形变发音器官产生的碰撞细分为可形变发音器官与非可形变发音器官之间产生的碰撞以及可形变发音器官与可形变发音器官之间产生的碰撞。碰撞检测和响应过程如下所示。首先通过计算当前发音器官表面网格上的点与其余发音器官表面网格上的点的交点来判断碰撞是否发生,并在碰撞发生时计算碰撞发生的位置。然后,对碰撞进行处理。为了避免由于运动模拟而导致的发音器官之间可能出现的相互穿越现象,给出了一种快速的碰撞响应方法,有效解决了发音器官之间可能出现的相互穿越问题。所进行的舌头和嘴唇的碰撞实验验证了上述方法的有效性。3.发音器官运动准确性评估是3D发音可视化研究的难点。本文从主、客观两个方面对运动模拟结果进行了全面而细致的评估,提出了一种基于轮廓比较的发音器官运动准确性客观评估方法。该方法通过对医学影像中发音器官进行自动标定和手工修正来获得其轮廓信息,并将该轮廓信息与合成得到的发音器官每一时刻下的轮廓信息进行比较,克服了传统的基于EMA数据的方法无法给出每一时刻下可形变发音器官轮廓信息的缺陷。实验结果表明,本方法可以实现更加全面而有效的评估效果,较好解决了发音器官运动准确性评估问题。4.设计并实现了一个可以产生同步语音动画的3D可视化虚拟发音人系统。该系统基于C++与OpenGL而开发,并利用NDI Wave设备采集的EMA数据来驱动发音器官,不仅可以产生语音同步的人脸动画,而且可以展示与所发语音对应的口腔内发音器官的运动过程。同时,系统还将虚拟人头部的表观模型和嘴唇的运动模型集成在内,实现了更友好的人机交互界面。对系统的测试结果进一步验证了本文方法的有效性。