论文部分内容阅读
该文通过"听感量化"思想的提出以及在此思想下对语料库设计、韵律预测、音库裁减、以高层韵律描述为输入的合成单元挑选等语音合成关键技术的深入研究,较好地解决了上述语音合成系统所遇到的困难.该文的创新点主要有以下几点:1、提出了"听感量化"思想.将自然语流环境中复杂多变的音变单元从听觉感知的角度量化为有限数量的"听感量化单元"来表征,为语音规律的深入研究和语音单元的提取找到了全新的方法;2、提出了基于听感量化的语料库设计方法,确保了语料库从听感上的完备性和均衡性,大大提高了语音合成系统在各种应用领域的一致性合成效果;3、提出了从海量录音语料中提取听感量化单元的方法,有效解决了语音合成系统面对不同存储容量时的音库裁减问题.对确保系统裁减前后从听感上保持最大的一致性有了理论上的保障;4、为修订孤立量化单元拼接时可能产生的匹配误差,把听感量化进一步延伸到变长基频模板构造中,并以层次化的数据挖掘为手段,建立起高精度的基频预测模型.保证了可伸缩架构下语音合成的自然度和表现力;5、在语音学知识的指导下,以统计分析方法确立高层韵律描述和听感量化单元之间深层次的关系,为听感量化单元的使用提供了精细的规则.在上述基础上所完成的"KD-B语音合成系统",其自然度综合指标在以普通发音人为4.0分的对比测试中首次达到了4.3分,标志这语音合成技术从研究向应用的重要突破.