论文部分内容阅读
多媒体计算机的发展趋势要求计算机能与人进行交流,而人脸传递着人类最广泛的信息,如情感、精神状态等,虽然每个人脸特征很相似,但却有不同的表情特征,于是人脸成为计算计算机视觉与计算机图形学中重要的研究领域。本文的工作包括三个方面:基于MPEG-4标准的面部动作编码、中文文本驱动的人脸动画、连续汉语语音驱动的人脸动画,他们也一直是计算机视觉和计算机图形学中一直具有挑战性的研究课题。 首先提出了本论文的研究背景及研究内容,然后回顾已有的人脸建模、人脸动画技术、嘴唇动画以及MPEG-4人脸动画标准,分别对这些方法进行分类,并比较其优点、缺点,指出研究的难点。 本文提出了一种基于MPEG-4的面部动作编码系统,该系统从高到低定义了三个层次:MPA层,FC层和FAP层。以MPEG-4定义的68个人脸动画参数FAP为基础,首先进行FAP到FC的转换,根据MPA与FC的多对多关系,获得MPA集合,建立以MPA矢量表达的人脸视位。在基于MPA的人脸表情动画中,采用B样条插值生成过渡帧,FACS引擎会根据MPA—FC—FAP的映射关系把MPA所描述的人脸动作装化为MPEG-4规定的FAP的值,然后再驱动线框架的三维人脸模型产生动画。 为了获取作为人脸动画基础的静态视位库,提出了一种基于参数化嘴唇模型的视位分类算法。参数化的嘴唇仅用7个参数就能比较精确地描述嘴唇动作,采用参数化的嘴唇来实现聚类算法比使用与嘴唇有关的特征点更鲁棒。 在面部动作编码系统和静态视位库的基础上,提出了一套完整的文本驱动人脸动画的方法,以中文文本为数据源,提取出音素流,从嘴唇静态视位库中选取由MPA矢量表达的关键帧,采用基于权重函数的协同发音模型来拟合过渡帧,由FACS引擎来驱动三维人脸。为了得到更真实的嘴唇动画效果,在协同发音模型里面还建立了汉字之间停顿的自适应模型,协同发音上下文的边界模型,另外,还采用变频采样技术来强化爆破音和超短音的效果。 语音驱动人脸动画与文本驱动相比,需要建立声音—视位的对应关系,本文采用识别连续汉语发音为策略,以识别的文本为选择静态视位的脚本,辅以协同发音过程,来合成人脸动画。为此提出了一种基于汉语发音规则的IFNET网络,模拟了汉字的拼写规则,脱离了庞大的样本数据库实现汉语语音识别。 本文提出的算法具有潜在的应用价值,可以应用在虚拟主持人、低频带的网络通讯、电影、游戏和广告中的角色模拟等许多领域。