论文部分内容阅读
语音是信息传播的重要方式,那么言语是如何生成?人机交互中机器人将如何与人交流等等问题早已经在国际上进行了大量的研究,但是基于中文普通话的研究还很少。本文基于MRI图像对中文发音语料库进行了三维建模,试图去揭示中文发音器官的运动特性。本文使用MRI(磁共振成像)扫描仪采集了104组不同发音状态下的头部断层图片,这些断层图片蕴含着声道三维信息,但是缺少口腔中骨质信息(牙齿)。利用CBCT(锥形束计算机断层成像)对于骨质结构具有较好成像功能这一优点,将CBCT获取上下牙的数据叠加到MRI图像中,弥补了MRI缺少骨质结构的这一缺点,从而对声道进行三维建模。在勾勒发音器官轮廓时,我们考虑了发音器官的生理边界,来保证发音器官的标注的准确性。同时,我们参考了发音器官的解剖结构,主要选定了骨质结构的边界作为锚点,以确保不同发音状态下器官标注的一致性。标注过程中有些器官从单一视角难以得到完整的轮廓信息,我们通过不同视角对发音器官进行标注,然后再将器官轮廓数据进行融合,最终得到完整的发音器官。我们使用大量的点来标注发音器官轮廓。器官表面由众多的顶点表征,形成点云数据,这些离散点之间按照一定的规则进行排序,最后点与点之间进行连接,形成表面三角形的三维网格来逼近发音器官的表面形状。采用线性成分分析法对构建的三维几何模型抽取了少量的控制参数(下颚2个,舌头3个,上下唇各2个,软腭2个,咽腔壁3个),实验结果表明使用这些控制参数可以有效的描述发音器官的位置和运动形态,重构均方根误差均小于0.2cm。