【摘 要】
:
随着手机、智慧音箱等智慧设备的迅猛发展,语音交互技术受到了越来越多的关注。语音合成作为语音交互的核心技术之一,必不可少的成了研究热点。语音合成技术在不断进步,机器
论文部分内容阅读
随着手机、智慧音箱等智慧设备的迅猛发展,语音交互技术受到了越来越多的关注。语音合成作为语音交互的核心技术之一,必不可少的成了研究热点。语音合成技术在不断进步,机器合成语音的质量也在逐步逼近自然语音,与此同时,用户开始更多的关注合成语音的个性化特征,其中方言语音合成技术就因其增加了合成语音的个性化特征而备受用户喜爱。汉语方言众多,而方言的语音合成技术又对方言的留存有着极其重要的意义。考虑到目前还没有上海话语音合成技术方面的研究,于是本文以上海话为研究对象,建立了一个面向上海话语音合成的语料库,提出了一种上海话的文本分析方法。在此基础上,分别将深度全连接网络(Deep Neural Network,DNN)、长短时记忆(Long Short-Term Memory,LSTM)网络引入到上海话的语音合成中,同时结合文献[1]中的CBHG网络,提出了基于LSTM+CBHG的上海话声学建模方法。本文的主要工作和创新如下:1.建立了一个面向上海话语音合成的语料库。根据上海话的发音特点,设计了1800句上海话的文本语料,覆盖上海话的声母、韵母和声调以及常用文白异读词汇的发音现象。并在专业录音棚录制了该文本语料的一位成年男性说话人的上海话语音库。2.提出了一种上海话文本分析的方法。输入普通话文本首先经过文本正则化、分词以及韵律预测后,获取文本的句子边界、词性以及韵律边界等上下文信息;接着在上海话词汇词典、特殊音字典的指导下,将字素转换成音素,根据音节映射规律获得完全的上海话拼音;结合上下文信息与上海话拼音,最终生成上海话的上下文相关标签。3.分别实现了基于DNN和LSTM循环神经网络的上海话语音合成方法,同时提出了基于LSTM+CBHG的上海话语音合成方法。通过上海话文本分析获取文本的上下文相关标签,采用WORLD声码器提取语音的声学参数,然后用标准化后语言特征和声学特征训练上述三种声学模型,预测声学特征解标准化后再做平滑处理和谱增强,最后喂入WORLD声码器重构出上海话语音波形。本文对比给出了三个实验的结果。
其他文献
与众多“50后”作家将乡村作为写作根据地不同,王安忆热衷探讨的是人物如何在城市获得合法身份,从其为数不多的农村题材作品来看,无论是早年对插队地方的冷静回望,还是现代化浪潮下,所产生的对乡村古典美的寄托,人物的空间迁移成其不变视点。风云时代的教育断崖、母亲茹志鹃的文学启蒙、前辈同行们的指引,照映出自身经验与想象力的匮乏,形成其写作心态上的紧张感。因此,她立足于熟稔的家庭叙事,尤其是宗法文化影响下同为
《孙子兵法》在域外传播已逾千年,其影响越来越大,并形成世界性孙子研究热潮。迄今《孙子兵法》已有40余种文字译本问世,发行遍及全球各地。《孙子兵法》走向世界,大致经历了
目的:探讨延边地区可溶性低密度脂蛋白受体11(sLR11)基因rs641120位点多态性及sLR11水平与2型糖尿病(T2DM)合并大血管病变之间的相关性。研究对象及方法:选取于2014年12月至2015年12月期间在延边医院内分泌科门诊及住院收治的T2DM患者共计237例,T2DM组分颈动脉粥样硬化组(CAS组,133例)、无颈动脉粥样硬化组(NCAS组,104例)。另设正常对照组(NGT组,7
教师候答对幼儿认知发展、回应水平及教师教学能力有极为重要的作用,但聚焦在教师候答行为的研究较少,相关研究主要集中在教师候答时间上,因此本研究围绕着科学领域集体教学活动中教师候答行为展开。为探寻科学领域集体教学活动中教师候答行为现状及不同候答背景下教师候答行为的差异,研究采用非参与式观察法对公办、私立幼儿园小、中、大班共17名幼儿教师组织的科学领域集体教学活动进行研究,共收集260个教师候答行为,采
机场大规模应用信息化的同时,随之也不可避免地会遭受各类网络安全问题的威胁。机场信息系统一旦遭受攻击或发生故障,将可能会导致航班大面积延误、大量旅客滞留机场等严重事故,因此对机场信息系统进行相关安全性评估以及对其风险控制方法的研究具有很高的现实意义。为克服传统信息系统风险评估方法评估周期长、评估过程繁琐等问题,本文提出一种新型的基于层次分析法(AHP)和改进D-S证据理论的风险评估方法。首先利用层次
<正>对艺术价值的分析、界定贯穿整个艺术批评、美学史。传统的艺术理论围绕真、善、美,建构出众多的艺术价值的理论模式。或勒令艺术“劝善”,如柏拉图、孔子;或高扬艺长审
目的观察氨磺必利联合艾司西酞普兰治疗阴性症状为主的精神分裂症患者的临床效果.方法:选择40 例精神分裂症患者,均以阴性症状为主,运用计算机抽样法分为对照组和观察组,每组