参数化统计语音合成的自然度研究——面向远程医疗服务的应用

来源 :东南大学 | 被引量 : 0次 | 上传用户:zhustrong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中国的老龄化进程加速,使得现有医疗服务模式无法满足老年人日益增长的医疗服务需求。远程医疗服务是解决这一问题的有效手段。利用机器智能分析用户长期生理数据,自动发送健康管理报告和提醒短信,进行远程管理,已成为发展趋势。对于大部分老年人,文字短信或报告阅读不便。本文主要研究把文字报告转换成高自然度语音报告,目的是在远程医疗服务系统中引入语音信息反馈方式,为老人提供更好的服务体验。  参数化统计语音合成系统是目前比较主流的合成系统。本文基于该类型系统,以高自然度语音合成为目标,开展基频提取算法比较、谱特征参数选择和情感语音合成三方面的研究工作。  基频和谱特征是影响合成语音自然度的两个重要声学参数。基频是一个描述语音激励源的特征,本文对比研究AMDF和STRAIGHT两种基频提取算法对合成语音自然度的影响,实验结果表明采用STRAIGHT算法提取得到的基频更加准确,有助于改善合成语音的音质。谱特征主要反映语音的声道特性,本文通过主客观评测方法,对比研究线性预测系数、线谱对系数、Mel倒谱系数、Mel广义倒谱系数、基于Mel广义倒谱线谱对系数五种谱特征参数,对合成语音自然度的影响。主观评测表明采用线谱合成语音自然度较好,客观评测表明采用Mel倒谱合成语音自然度较好。  赋予合成语音情感变化,使合成语音更好的模拟自然语音,对合成语音自然度有着重要影响。本文分别提取语音信号的基频、时长、能量、共振峰等情感特征,在分析六种情感语音信号:中性、惊奇、高兴、恐惧、愤怒、悲伤的情感特征基础上,总结情感特征的变化趋势,制定情感特征修改规则,并采用PSOLA算法修改中性语音的情感特征,合成出情感语音。通过主客观方法评测合成语音的情感和自然度,实验结果表明合成语音可以较好的表达高兴、愤怒和悲伤情感,有助于提高合成语音的自然度。  本文根据自然度研究的实验结果,构建一个高自然度语音合成工具,选用STRAIGHT算法提取基频,选用线谱对谱特征参数合成中性语音,同时结合语音的情感表达。实现了将健康报告转换成高自然度语音报告,并对报告的主观效果进行了评测,达到了预期效果。
其他文献
医学成像技术的迅猛发展,为医疗诊断带来了很大方便,大大促进了临床医学的发展。但是由于医学影像设备成像原理不同,所示图像各有侧重,互补性很强,如果单独使用会在影像资源上造成
本轮电力体制深化改革过程中,各类市场主体进入电力市场,供电可靠性和稳定性成为值得关注的问题.国家秉持安全为底线的理念,强调对非市场化用户、放弃选择权的用户等实施保底
在互联网环境下,商业银行不良资产处置模式呈现出了新的形态,而如何为商业银行不良资产处置工作新形态的规范化发展创造良好环境,则是政府部门、商业银行、资产管理公司以及
伴随互联网的快速发展,保险行业也在互联网技术的协助下创新了发展路线、开拓了发展渠道,做到了线上、线下双面发展.随着互联网保险的崛起,消费者权益受到了多方面的困扰与损
在铸钢的铸造过程中,采用铸钢冒口覆盖剂可减缓冒口中钢水的冷却速度,提高冒口钢液对铸钢件的补缩能力,从而降低钢水用量,提高铸钢件的质量和出品率。但是,随着铸造技术的发展和对
近几年来,网络经济类犯罪不断增加,网贷平台作为一种新型的互联网金融借贷形式,利用其集资类犯罪频发.作为涉众型犯罪,波及地区非常广、参与人员众多、资金数额巨大等问题,容
磁感应断层成像(Magnetic Induction Tomography, MIT)技术是一种新的非接触电导率断层成像技术,它是利用电磁检测原理测量生物组织电导率。 MIT成像技术在区分不同类型的
人体与外界环境进行气体交换的总过程,称为呼吸。呼吸是人体重要的生理过程,对人体呼吸的监护检测是现代医学监护技术的一个重要组成部分。呼吸频率是呼吸行为一项重要的参数
法官撰写的判决理由是一份判决书的核心,是法官专业水平的体现,一份好的判决书应做到充分而富有逻辑的说理.然而长期以来,我国的裁判文书主要重视阐明案件基本事实、判决结论