普通话合成基元数据库的设计与搜索

来源 :山东大学 | 被引量 : 0次 | 上传用户:destinyjack1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人机语音通信的发展,语音合成系统成为了当前研究的热点。影响合成音质的因素包括文本分析技术、韵律规则、合成基元数据库质量以及拼接技术等。本文主要研究普通话合成基元数据库的设计与搜索,数据库的基元是直接从自然语音中截取的,且拥有多个样本,包含了足够的韵律和谱变化。由于合成时根据搜索算法,挑选拼接代价最小的样本直接拼接,避免了采用信号处理技术修饰韵律对音质的损害,所以最大限度的保留了语音的自然度。 为了确定合适的基元,在此我们对不同种类基元的语音学特点进行了分析。由于普通话是基于音节的语言,有规则的CV(Consonant+Vowel)结构音节,同一个音节的音素之间有很强的协同发音,而音节边界音素之间的协同发音相对较弱,因此“带有声调的音节”被选为合成基元。 通过对普通话发音特点的分析,将音节的韵律特征用一个五维语境向量DCVV(Descriptive Contextual Variation Vector)来表示。为了在拼接时搜索出恰当韵律的基元,我们设定并优化了语境向量元素距离表。设计过程同样基于普通话的发音特点,考虑到语音的平均拼接代价和平均意见得分有较强的关联,因而对语境向量距离表的优化通过提高AvCCost和MOS的相关系数来实现。这里采用少量数据进行了Matlab仿真实验,结果证明该优化方法是可行的。 我们还将GSM13kb/s RPE-LTP和ADPCM两种语音压缩编码方法用于基元库,进一步减小了数据库容量。可以根据速率和语音质量需求选择不同的压缩算法。 最后介绍了两种合成基元搜索方法。对于基元样本少的系统,使用顺序搜索方法;对于基元样本多的系统,为了提高搜索效率,需要为每个基元构建一棵索引树,采用树搜索。
其他文献
RFID是九十年代兴起的、目前在理论和应用研究方面都十分引入注目的一种自动识别技术。它具有数据量大,保密性高,抗干扰能力强,识别时间短,费用较低等优点,有很好的应用前景。本文
路由选择是 TCP/IP(Internet)网运行的核心问题,合理高效的路由选择方式不仅可以保障全网的正常运行,还能够提高网络的接通率,而将Internet 网的接通率提高,既可以尽量避免交
学位
泄漏同轴电缆(简称漏缆)由于同时具有连续天线和传输线的特性,广泛应用于地下交通、矿井等闭域或者半闭域空间中。随着未来智能高速公路、物联网、4G通信网络的发展,对泄漏同轴电缆的性能要求也越来越高,尤其对使用频带的需求越来越高,因此,扩展使用频带的研究将是一个趋势。然而在去除谐振点来扩展使用频带中,如果能够得到泄漏同轴电缆开有单槽口下的反射系数具体解析表达式,进而求出总的反射系数解析表达式,就可以从理
频率选择表面(Frequency Selective Surface,简称FSS)是一种由金属贴片单元或金属屏开缝单元组成的起空间滤波作用的二维周期性阵列结构。在与电磁波相互作用下,贴片型FSS一般
超宽带天线是指工作频段在3.1-10.6GHz之间,绝对带宽大于500MHz,相对带宽大于20%的天线。自超宽带技术由军用技术开放为民用技术以来,在短距离无线通信系统和微波成像技术上
目前,宽带无线接入技术和IPv6技术正成为全球通信市场和研究领域的焦点。如何将宽带无线技术与IPv6结合起来,组建大范围宽带无线接入,更好地提供不受带宽限制的通信业务,已成为我
彩色等离子体显示屏(PDP)被认为是最适合作为高清晰度电视(HDTV)信号的彩色显示终端。它属于自发光型显示器件,具有存储特性,很强的非线性电特性,高亮度等特点,这使其更适合
本论文的资助来源为:北京市教委共建项目(项目编号:XK100130537),国家自然科学基金项目(项目编号:60578043,60577046,60377026),国家863基金项目(项目编号:2001AA122041) 偏振模色