【摘 要】
:
语音驱动的口型动画自动合成对于许多应用都是必不可少的,而传统的面部捕捉方法需要的装置昂贵且使用耗时。本文重点就是通过给定的音频和角色模型,生成匹配音频的口型动画,
论文部分内容阅读
语音驱动的口型动画自动合成对于许多应用都是必不可少的,而传统的面部捕捉方法需要的装置昂贵且使用耗时。本文重点就是通过给定的音频和角色模型,生成匹配音频的口型动画,能够准确地反应整个口型与语音的协同性以及语音中的情感表现。同时追求整个系统可以对于角色模型进行泛化,从而快速地应用于多种角色模型上。我们的框架基于强化学习Actor-Critic网络,我们的Actor模型直接将输入语音序列的各种声学特征和人脸角色动画的3D混合形状模型的面部变形参数作为我们的状态进行输入,并对下一时间步的面部变形参数进行预测。Critic网络对于当前状态下的行为设计奖励函数,并引入ground truth数据作为输入来进行优化,应用时间差分算法,使得生成的口型动画不断地逼近真实状态下的面部变形。我们使用梅尔频率倒谱系数作为音频特征,既可以非常有效地呈现上下文信息,同时又可以反映说话者在整个序列中的情感状态。另外考虑到音频里的情感状态和人脸口型动画中的表情变化,我们采用基于动作单元的特征提取,对于角色全脸的面部动作编码系数进行提取并综合考虑,使得整个角色表情看得更加逼真且匹配音频中的情绪,模型能够学习语音中随时间变化的上下文信息和情感状态的潜在表示。在包含各种情感下的语音的真实视听语料库上的实验结果表明,我们的方法在口型匹配度和时间平滑性上都表现优异。在各种各样的面部动作和情绪状态下对不同演员的各种视听语料库进行的实验表明,我们方法模拟出的口型动画都要更加准确和逼真。由于独立于角色人脸模型,所以通用模型很容易适用于人机交互和动画中的各种任务。
其他文献
1 病例 例一:患者,男,60岁,主因喘息、呼吸困难1天以"哮喘持续状态"急诊收住入院.入院查体:R 30次/分,BP 14/9.5KPa(1KPa=7.5mmHg),HR 120次/分,意识清,端坐位,烦躁,大汗淋漓,呼
永磁同步电机(permanent magnet synchronous motor,PMSM)具有功率因素高、效率高、维护方便、可靠度高等优点,现已广泛应用于电动汽车等领域,呈现出大范围替代异步电动机的
20世纪70年代中期,医疗费用的大幅攀升使得支付方式成为各国医疗保险领域的研究热点,如何控制不合理医疗卫生费用的过快增长成为世界各国面临的难题。我国的基本国情决定了无
目的探讨雨课堂在心电图教学中的应用效果。方法选取2014级高职学生5、6班99人为对照组,采用传统教学方法;3、4班100人为实验组,把雨课堂软件引入心电图教学,创设高职护理专
<正>3月8日,国家卫生健康委主任马晓伟在全国两会"部长通道"回答记者提问时说:"分级诊疗制度是医改以来推行的一项重大制度。从某种意义上说,分级诊疗制度实现之日,乃是我国
目的:建立HBV基因型和亚型的分型方法,并分析相关的两种方法特异性和敏感性。方法:采用型特异性引物的巢氏PCR.RFLP和六种主要的HBV型特异性引物和亚型特异性引物的多重PCR方法,分
目的:下肢应力性骨折是军事入伍新兵常见的过度使用性损伤。本研究旨在确定入伍新兵下肢应力性骨折的潜在风险因素,为下肢应力性骨折的预防提供新的指导,并为今后制定针对性的训练方案提供一定的理论依据。方法:采用前瞻性流行病学调查的方法,通过调查问卷记录我军某部2018-2019年度入伍新兵的基本信息以及生活方式等变量,并通过便携式步态分析仪采集部分新兵下肢的步态参数。由骨科医师对新兵集训进行全程跟踪随访,
望眼神是中医望诊的重要内容,能直接反映患者的病理生理状态。传统的望眼神主要由医生的直接目测进行判断,主观性较强,精确性及一致性较差。本研究运用现代图像处理技术和机
在世界开展新一轮工业革命的背景下,随着资源短缺与环境恶化的约束日益凸显,以节能减排和创新驱动为本质的绿色技术创新越发引人关注。中国的绿色技术创新发展起步晚、基础相对薄弱,若想赶超发达国家的技术水平,中国一方面要加大国内的研发投入强度,调动相关资源来强化国内的自主创新能力;另一方面也要借助对外开放途径吸收发达国家的技术和知识溢出,补充与扩展本国的绿色技术创新。在对外开放政策的支持下,中国的OFDI正