基于改进的GMM和频率弯折的高质量语音转换算法的研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户：hcjw248

【摘要】

：

语音是说话人发音时产生的信号,其包含语义信息、个性信息和情绪等多种自然信息,具有采集友好且方便的特点。语音转换技术就是对源说话人的个性特征参数进行转变,使其具有目

【作者】

：

崔立梅

【出处】

：

南京邮电大学

【发表日期】

：

2017年期

【关键词】

：

AHOcoder MFCC 双线性频率弯折加幅度压扩语音转换模型 ISODATA

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

语音是说话人发音时产生的信号,其包含语义信息、个性信息和情绪等多种自然信息,具有采集友好且方便的特点。语音转换技术就是对源说话人的个性特征参数进行转变,使其具有目标说话人的个性特征信息,并保持语音的语义信息不变。作为近年来说话人识别和语音合成技术高度发展后的延伸和拓展,语音转换技术受到国内外语音研究者的高度关注。随着语音转换技术的发展,语音研究者不再仅仅关注转换语音的可懂度和转换后的相似度,而更加强调转换语音音质的流畅性、自然度。对语音转换技术的研究有助于推动语音信号处理其他领域不断向前发展,可以作为医疗辅助,提高语音的质量,也可以丰富大数据处理和智能化人机交互,使人机交互更加自然,具有娱乐性和个性化。因此,对语音转换的研究其应用前景深远、理论研究价值巨大。本文针对语音转换技术开展了研究,主要研究内容如下:从语音产生原理入手,介绍了发音系统的数学模型及常用的语音特征参数,并对语音转换模型进行了简要介绍。本文中用于特征参数提取与合成的模型是AHOcoder模型,该模型可以同时提取出0log f、MFCC(梅尔倒谱参数)以及浊音最大频率。详细描述了GMM-双线性频率弯折加幅度压扩语音转换模型,分析了GMM的训练、双线性频率弯折加幅度压扩训练、转换流程及相关方面的理论知识。通过Matlab实验,对该模型与传统GMM模型、GMM-双线性频率弯折模型进行了主客观性能的比较,在这几种模型中该模型转换语音效果最优。重点研究了改进的GMM-频率弯折的语音转换模型。针对GMM模型中混合数固定,语音特征参数分类不合理的问题,在基于高斯混合模型的聚类过程中引入了迭代自组织聚类算法ISODATA,该算法具有较好的聚类特性,以此来得到更符合说话人个性特征参数的分类,进而改善转换语音的质量。迭代自组织聚类算法使用误差平方和作为聚类准则,设置初始值参数对“合并”和“分裂”操作进行判断,并根据拟合数据的分布,自调节得到最优类别数。这一聚类比传统GMM的K-Means聚类具有自组织的优势。经过迭代自组织聚类后再进行EM迭代,结合后续的双线性频率弯折实现语音转换。通过实验分析,该模型在客观评价方面,MCD值比GMM-双线性频率弯折加幅度压扩模型的低,在不同语料、不同转换情形下MCD值平均下降了1.49%,反映了该模型频谱的失真程度更低,转换语音与目标语音的频谱相似性更好;在主观评价方面MOS值比GMM-双线性频率弯折加幅度压扩模型的高,MOS值平均提高了5.13%,表明该模型转换语音的音质更优。理论分析和实验证明,该模型与GMM-双线性频率弯折加幅度压扩模型相比,转换后的频谱相似度和MOS值都更高,这表明该模型在个性相似性和合成语音音质方面都有一定性能的改进,实现了高质量的语音转换。

其他文献

最低工资标准适度性评价与测算研究——以山西省及其周边省份为例

最低工资标准的制定关系着劳动者基本收入水平的维护,探明最低工资标准适度性问题是科学合理地制定最低工资标准的重要前提。针对山西省及周边部分省份最低工资标准的适度性

期刊

最低工资标准适度性ELES模型

以人为本加强高校师德建设

新时期,高校师德建设应遵循“以人为本”思想。从“以人为本”的理念出发,确立教师在学校道德建设中的主体地位,是学校道德建设的治本之策。

期刊

以人为本教师师德学校道德建设主体地位治本之策

对刘秀珍案的质疑

读了《人民司法》去年第十一期《一案一议》栏刘秀珍案例,对于其中法医检验认定:“死者头、面部确有暴力打击伤痕,颅脑内出血,在无急救的情况下可以致命;另根据死者颈部索痕

期刊

颅脑损伤

自媒体新闻与传统新闻的融合发展

自媒体在互联网时代依托信息化技术蓬勃发展,对传统媒体产生了冲击,传统新闻的传播元素在冲击下被解构。虽然受到一定程度的冲击,但传统新闻和自媒体新闻各有优劣在媒体发展

期刊

自媒体传统新闻融合发展

高层居住区规划设计策略的室外热环境效应实测和数值模拟评估

城市化改变了城市的热环境,适宜的规划设计策略可以缓解热岛效应等城市热环境问题对建筑节能、人体热舒适等方面带来的负面效应。本文针对城市高层居住区规划设计策略对小区

期刊

热岛效应热舒适绿化反射率城市设计

浅析彝族传统礼仪文化的思想价值

彝族传统礼仪文化作为彝族先民创造的非物质文化遗产,蕴含的思想内容非常丰富。本文在对彝族传统文化进行深入研究的基础上,总结出彝族传统礼仪具有以礼立人、与人为善、崇宗

期刊

彝族传统礼仪文化思想价值

基于锁相放大技术的激光超声信号处理电路的设计

利用激光声表面波(SAW)技术对膜材料机械特性的测量(如杨氏模量、密度、厚度等)已得到了越来越广泛的应用。但激光激发激光检测声表面波(LG/LD-SAW)的频谱带宽较宽(达几百兆

期刊

激光声表面波锁相放大微弱信号

新疆哈、维、汉族食管鳞癌HPV16及HLA-DR抗原的相关性研究

目的:探讨HPV16感染与新疆哈、维、汉族食管鳞癌病因学的相关性,HLA-DR抗原的表达与新疆哈、维、汉族食管鳞癌的遗传易感性,以及两者在三民族食管鳞癌发生的相关性。方法:采

学位

人乳头瘤病毒16型人白细胞-DR抗原食管鳞癌聚合酶链反应免疫组织化学

口外型舌下腺囊肿的诊断与治疗(附20例报告)

颌下、颏下发生的口腔外舌下腺囊肿,因其表现部位的特殊性,该病在诊断上易发生误诊,导致不必要的手术.现总结我院从1995～2002年收治的20例已经手术病理证实的典型病例进行分析

期刊

口外型舌下腺囊肿颌下腺囊肿

论企业稳定存在的充分与必要条件及其企业的本质

从利益关系来分析,企业是多个利益主体基于追逐利益的最大化和利益剩余而形成的经济组织,企业的稳定存在必须满足利益关系中的个人理性条件和群体理性条件.利益剩余的存在是

期刊

企业理论核心要素核心竞争力个体理性群体理性

基于改进的GMM和频率弯折的高质量语音转换算法的研究

其他学术论文