韵律层次预测中基于统计模型的机器学习方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:haihanzhi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成是从文本生成语音的技术。为了生成高自然度的语音,一方面要从文本信息预测出准确翔实的韵律信息,包括韵律层次、重音分布、基频曲线、时长、停延、能量等。一方面是制作大规模合成语音库中,收录丰富的、足具表现力的语音基元。韵律层次的预测是生成基频、时长等其他韵律参数的前提条件,是影响合成语音自然度的重要因素。 本文首先对韵律层次预测的研究历史和现状做了较为完整的调研。通过对前人工作进行深入了解,作者认为基于机器学习的方法在目前条件下,优于人工总结规则的方法,今后几年应继续在该方向开展更多的研究工作,并且应着力解决好属性信息选择和统计模型选择这两个问题,一方面努力利用好更多有利于韵律预测的语法、语音、统计信息,一方面寻找更适合该任务的统计模型和算法。 围绕这两个方面,本论文阐述了作者在语调短语预测方面的研究,主要工作包括: 第3章提出了基于相似句的韵律短语边界预测方法。对于任意一个输入的句子,该模型都从一个带有韵律短语标注的句子库中寻找其相似句,然后根据找到的一个或者多个相似句的韵律短语边界位置,决定输入句的韵律短语边界位置。在寻找相似句中,提出了相似距离的度量方法——合成的编辑距离,同时考虑了词性、词义、音节数目对韵律短语边界位置的影响。在1000句测试集上的实验结果表明该方法能够达到我们预期的效果,即在能够接受的手工标注工作量下,超过现有决策树的效果。 第4章提出了基于最大熵模型的语调短语边界预测方法。在已有的特征CCFS(CountCutoffFeatureSelection)方法的基础上,本文提出了特征上下文CCFS方法和基于似然比的特征选择方法。实验证实,特征上下文CCFS方法的效果最好。同时比较了传统的基于决策树的方法和基于最大熵模型的方法的效果,指出在使用相同属性的条件下,最大熵模型更适合于语调短语边界的预测。 第5章针对目前多数方法只利用局部上下文信息的局限,提出了三种平滑模型,把语调短语的长度分布信息有效地跟局部上下文信息相融合,显著地提高了整个系统的预测效果。这三种平滑模型分别是增扩特征集模型、切分平滑模型和滑动窗口模型。其中滑动窗口平滑模型的贡献最为显著。 第6章为减少制作标注库时的手工工作量,基于主动学习的基本原理,设计了一个有序标注语料库的方法,同以前随机标注方法相比,节约了约一半的手工工作量。
其他文献
随着无线局域网的快速发展,它的安全性问题日益受到人们的关注。无线局域网安全的最大问题在于无线通信设备是在自由空间中进行传输,而不是像有线网络那样是在一定的物理线缆
网络和多媒体技术的发展为多媒体数字作品的使用、传播提供了便利的途径。然而由于数字作品极易被篡改和复制,盗版问题也变的越来越严重。数字水印技术作为多媒体作品版权保
以有源雷达为主要探测系统的防空体系越来越受到电子干扰、反辐射导弹等对抗技术的严重威胁,人们在提高有源雷达综合对抗能力的同时,也在努力发展不辐射电磁信号的无源雷达。无
混沌现象由美国气象学家洛伦兹(Lorenz)于1963年首先发现,其后迅速发展成为一门新兴科学。混沌科学与其他科学相互渗透,在各个学科领域均得到了广泛的应用,被认为是20世纪物理学
近年来,互联网的飞速发展对网络的性能提出了更高的要求。但由于存在地址短缺,地址分配不均匀,安全性以及路由表急剧膨胀等问题,现在被广泛使用的网际协议IPv4已难以对网络提供更