基于MPEG-4标准的三维人脸动画

来源 :浙江大学 | 被引量 : 0次 | 上传用户:qxq00007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多媒体计算机的发展趋势要求计算机能与人进行交流,而人脸传递着人类最广泛的信息,如情感、精神状态等,虽然每个人脸特征很相似,但却有不同的表情特征,于是人脸成为计算计算机视觉与计算机图形学中重要的研究领域。本文的工作包括三个方面:基于MPEG-4标准的面部动作编码、中文文本驱动的人脸动画、连续汉语语音驱动的人脸动画,他们也一直是计算机视觉和计算机图形学中一直具有挑战性的研究课题。 首先提出了本论文的研究背景及研究内容,然后回顾已有的人脸建模、人脸动画技术、嘴唇动画以及MPEG-4人脸动画标准,分别对这些方法进行分类,并比较其优点、缺点,指出研究的难点。 本文提出了一种基于MPEG-4的面部动作编码系统,该系统从高到低定义了三个层次:MPA层,FC层和FAP层。以MPEG-4定义的68个人脸动画参数FAP为基础,首先进行FAP到FC的转换,根据MPA与FC的多对多关系,获得MPA集合,建立以MPA矢量表达的人脸视位。在基于MPA的人脸表情动画中,采用B样条插值生成过渡帧,FACS引擎会根据MPA—FC—FAP的映射关系把MPA所描述的人脸动作装化为MPEG-4规定的FAP的值,然后再驱动线框架的三维人脸模型产生动画。 为了获取作为人脸动画基础的静态视位库,提出了一种基于参数化嘴唇模型的视位分类算法。参数化的嘴唇仅用7个参数就能比较精确地描述嘴唇动作,采用参数化的嘴唇来实现聚类算法比使用与嘴唇有关的特征点更鲁棒。 在面部动作编码系统和静态视位库的基础上,提出了一套完整的文本驱动人脸动画的方法,以中文文本为数据源,提取出音素流,从嘴唇静态视位库中选取由MPA矢量表达的关键帧,采用基于权重函数的协同发音模型来拟合过渡帧,由FACS引擎来驱动三维人脸。为了得到更真实的嘴唇动画效果,在协同发音模型里面还建立了汉字之间停顿的自适应模型,协同发音上下文的边界模型,另外,还采用变频采样技术来强化爆破音和超短音的效果。 语音驱动人脸动画与文本驱动相比,需要建立声音—视位的对应关系,本文采用识别连续汉语发音为策略,以识别的文本为选择静态视位的脚本,辅以协同发音过程,来合成人脸动画。为此提出了一种基于汉语发音规则的IFNET网络,模拟了汉字的拼写规则,脱离了庞大的样本数据库实现汉语语音识别。 本文提出的算法具有潜在的应用价值,可以应用在虚拟主持人、低频带的网络通讯、电影、游戏和广告中的角色模拟等许多领域。
其他文献
目前,随着网络入侵和攻击行为的迅速增长,网络安全问题成为人们日益关心且必须解决的问题。防火墙和网络入侵检测作为网络安全领域的两大关键技术,如能将它们实现某种程度上的结
地理信息系统(Geographical Information System,简称GIS)是在计算机科学、信息科学、数学、统计学、空间科学、遥感科学、遥测科学、环境科学、管理科学等学科基础上形成的边
本文就并行分布式环境下的调度问题进行了研究,有中断时间代价的一致并行调度问题的研究:证明了这是一个NP-hard问题,给出了一个时间复杂度为O(nlogn+m)的脱线近似算法,其近
数字网络硬盘是运用虚拟存储技术(Virtual Disk System Architecture)的最新科技成果。在服务器的支持下,整个网络就像一台电脑那样工作,既发挥了工作站的独立计算能力,又合理利
  位移映射是最近比较流行的一种用于表现物体表面细节的模型特效。由于传统凹凸映射只是单纯对模型表面作贴图处理,“立体感”并不逼真,很难对表面细节加以显示。而位移映射
本文在研究了轻量目录访问协议LDAP的基础上,设计并实现了基于目录服务的统一身份认证系统,将所有用户的帐号、口令、权限等基本信息都保存在同一个目录中。这样,所有的应用
  本文对IP网络多媒体通信技术进行了系统的分析和研究,并在此基础上参照H.323协议,设计实现了一套基于IP网络的多点视频会议系统。系统采用了集中与分布式多点控制单元(MCU)
本论文从理论和实验上详细研究了利用激光光折射原理快速测量牛乳乳糖质量分数的技术研究。He-Ne 激光器发出的单色激光从盛乳糖溶液的三角形(“△”形)试样盒中透射后,出射
图像处理是可视化领域的重要组成部分,近年来图像数据的规模和复杂程度不断加大,给图像处理和目标分析带来了很大难度。而图像显著性区域检测技术可以解决这一问题,它在减少
汽车导航系统是在全球卫星定位系统GPS基础上发展起来的新型技术。驾车者只要将目的地输入汽车导航系统,系统就会根据电子地图自动计算出最合适的路线,并在车辆行驶过程中(例如