基于WaveNet结构的普通话歌声合成的研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户：daxing_hhx

【摘要】

：

歌声,是通过人类嗓音所表达的音乐形式,也是人类语音最富有表现力的表达方式。歌声合成(Singing Voice Synthesis,SVS)是指利用语音合成相关技术,让计算机能够像人一样发出优

【作者】

：

游于人

【出处】

：

西北师范大学

【发表日期】

：

2004年期

【关键词】

：

歌声合成歌声数据库乐谱分析隐马尔科夫模型 WaveNet

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

歌声,是通过人类嗓音所表达的音乐形式,也是人类语音最富有表现力的表达方式。歌声合成(Singing Voice Synthesis,SVS)是指利用语音合成相关技术,让计算机能够像人一样发出优美动听的歌声。歌声合成作为语音合成技术一个新的应用领域,在虚拟歌手、唱片制作、数字音乐创作等领域都有相当大的应用价值和前景。随着近年来研究者对语音合成技术研究的深入,对歌声合成方法的研究也有了一定进展,但还没有针对普通话歌声合成方法进行深入的研究。由于歌声合成比单纯的语音合成更侧重于对旋律的演绎,而且增加了关于歌曲信息的处理过程,比如节奏、调性等信息,因此歌声合成比语音合成具有更大的挑战性。本文研究了基于统计参数模型的歌声合成算法,在现有普通话语音合成和歌声合成的基础上,提出了一种改良的基于WaveNet结构的普通话歌声合成模型,能够用小的训练语料获得较好的歌声合成效果。本文的主要工作和创新如下:1.建立了一个面向普通话歌声合成的歌声语料库。根据歌曲的节奏、调性等特点,选择了90首歌曲的音乐可扩展标记语言(Music Extensible Markup Language,MusicXML)格式乐谱文件,设计了歌声录制方案,邀请一位专业成年女性歌手在专业录音棚录制歌声语料库。录制的普通话歌曲语料库的总时长为169分钟,为普通话歌唱合成接下来的工作提供了坚实的数据保障。2.提出了一种从普通话歌曲MusicXML格式乐谱文件得到上下文相关标注的乐谱分析方法。设计了包含音素层、音节层、音乐信息层、乐句层、歌曲层等5层上下相关标注格式。通过输入普通话MusicXML格式乐谱文件,最终生成用于声学建模的MusicXML格式乐谱文件的上下文相关标注。3.实现了一种基于统计参数语音合成技术的普通话歌声合成方法。基于统计参数模型的普通话歌声合成方法能够根据输入的MusicXML格式乐谱文件合成出节奏和音高较为精准、音强适度、以及具有个性化音色的歌声。4.提出了一种基于WaveNet结构的普通话歌声合成方法。该方法对参数声码器提取的特征分别进行建模,最后通过WORLD声码器重构出歌声。提取的特征包括:谱包络(Spectral Envelope,SP)、非周期参数(Aperiodicity Envelope,AP)、基频(Fundamental Frequency,F0)、清/浊音判别(Voiced/Unvoiced,V/UV)。主、客观实验结果表明,该方法可以利用有限的歌声数据库合成出尚可接受的普通话歌声。

其他文献

环境污染治理中的规制俘获与媒体监督

环境问题关乎人民身体健康与生活水平,党的十八大以来,环境治理受到高度重视。然而,现实中环境事件频发的态势并没有得到缓解。福建泉港碳九泄露事件、山西三维集团严重环境污染事件等牵动人心,也暴露出地方环境监管部门环境规制效率较低的现实。现有研究常从监管技术落后、监管能力不足等角度,分析环境监管效率低下的原因。但在现实中,地方环境监管部门的规制措施受到自身政绩目标、经济发展目标的约束,形成行政负担,进而出

学位

环境执法规制俘获行政负担媒体监督

VA集团在华全资工厂组织结构优化研究

机械制造业是我国各行各业的基石,它同时也支撑着各行各业的发展,同时也可以影响国民经济的兴衰和发展。机械制造业的水平也能够在一定程度上反映我国经济建设的水平。上世纪开始,国外大型集团公司纷纷涌入我国市场,其中涉及面最广的行业就是汽车行业。在目前的经济形势下,汽车制造业的生存略显艰难。当销量好的时候,企业过的内部的很多问题和弊端都会被隐藏起来,但是当行业整体环境下滑的时候,越来越多的公司才会开始注意自

学位

组织结构组织优化事业部制

核心素养下高中生物学科学史教学现状调查及实践研究

生物学是研究生物各个层次的种类、行为、结构与功能、遗传和进化及其与环境之间的关系的一门科学。《普通高中生物学课程标准(2017年版)》对高中生物学提出了新的目标要求,

学位

高中生物学核心素养科学史教学

覆铜板制造中的界面和界面优化设计

本文概述了覆铜板制造过程中界面的形成和界面类型以及界面的概念,叙述了界面层的形成及作用机理;覆铜板材料的界面层结构;覆铜板材料界面层的功能;覆铜板制造中材料界面改性

会议

覆铜板界面优化设计

后殖民翻译理论视角下的译者主体性研究

传统的翻译理论研究一直停留在译作语言层面的研究上,随着翻译理论研究的文化转向,翻译研究逐渐开始从文本内转向文本外。后殖民主义翻译研究关注权力、意识形态等因素投射到

学位

后殖民主义翻译理论译者主体性《论语》对比分析异化归化

农村初中生心理控制源对主观幸福感的影响

主观幸福感是个体依据自定的标准对其生活质量所作的总体评价与体验,是衡量其心理健康的重要指标。心理控制源和应对方式作为人的一种基本能力,对其主观幸福感产生着不可忽视

学位

农村初中生心理控制源应对方式主观幸福感

装备制造企业快速响应能力评价研究及应用

随着市场竞争的日益激烈和技术、设备的快速迭代,装备制造企业快速响应复杂变化市场需求的能力成为其可持续发展的重要保证。构建系统的快速响应能力评价指标体系、选取科学

学位

装备制造企业快速响应能力评价指标体系综合评价

文化自信视域下中国文化话语权初探

当今时代正在经历百年未有之大变局,经济全球化、社会信息化、文化多样化深入发展。在价值观多元化的冲击下,守住舆论阵地,宣传中国声音,走好中国道路至关重要。在中国文化软

学位

文化自信文化话语权核心价值观文化软实力

基于WaveNet结构的普通话歌声合成的研究

其他学术论文