论文部分内容阅读
语音合成是从文本生成语音的技术。为了生成高自然度的语音,一方面要从文本信息预测出准确翔实的韵律信息,包括韵律层次、重音分布、基频曲线、时长、停延、能量等。一方面是制作大规模合成语音库中,收录丰富的、足具表现力的语音基元。韵律层次的预测是生成基频、时长等其他韵律参数的前提条件,是影响合成语音自然度的重要因素。
本文首先对韵律层次预测的研究历史和现状做了较为完整的调研。通过对前人工作进行深入了解,作者认为基于机器学习的方法在目前条件下,优于人工总结规则的方法,今后几年应继续在该方向开展更多的研究工作,并且应着力解决好属性信息选择和统计模型选择这两个问题,一方面努力利用好更多有利于韵律预测的语法、语音、统计信息,一方面寻找更适合该任务的统计模型和算法。
围绕这两个方面,本论文阐述了作者在语调短语预测方面的研究,主要工作包括:
第3章提出了基于相似句的韵律短语边界预测方法。对于任意一个输入的句子,该模型都从一个带有韵律短语标注的句子库中寻找其相似句,然后根据找到的一个或者多个相似句的韵律短语边界位置,决定输入句的韵律短语边界位置。在寻找相似句中,提出了相似距离的度量方法——合成的编辑距离,同时考虑了词性、词义、音节数目对韵律短语边界位置的影响。在1000句测试集上的实验结果表明该方法能够达到我们预期的效果,即在能够接受的手工标注工作量下,超过现有决策树的效果。
第4章提出了基于最大熵模型的语调短语边界预测方法。在已有的特征CCFS(CountCutoffFeatureSelection)方法的基础上,本文提出了特征上下文CCFS方法和基于似然比的特征选择方法。实验证实,特征上下文CCFS方法的效果最好。同时比较了传统的基于决策树的方法和基于最大熵模型的方法的效果,指出在使用相同属性的条件下,最大熵模型更适合于语调短语边界的预测。
第5章针对目前多数方法只利用局部上下文信息的局限,提出了三种平滑模型,把语调短语的长度分布信息有效地跟局部上下文信息相融合,显著地提高了整个系统的预测效果。这三种平滑模型分别是增扩特征集模型、切分平滑模型和滑动窗口模型。其中滑动窗口平滑模型的贡献最为显著。
第6章为减少制作标注库时的手工工作量,基于主动学习的基本原理,设计了一个有序标注语料库的方法,同以前随机标注方法相比,节约了约一半的手工工作量。