基于长时特征的语音端点检测方法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:vickyvictorias
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
准确的语音端点检测可以提高语音后续处理的正确率和处理效率,同时也可以为语音分割提供依据。目前已有很多语音端点检测的方法,它们在高性噪比和平稳噪声情况下具有很好的检测性能,但在低性噪比以及非平稳噪声的环境中,检测性能大幅下降,本文对此展开研究。,长时特征是用一个长时窗口对已经过短时分帧处理的语音帧重新进行分割,然后分析重新分割后的语音特性,这将有效提高端点检测在低信噪比和非平稳噪声下的语音端点检测效果。LTSV(Long-Term Signal Variability)是一种基于谱摘的长时特征,具有比短时特征和其他长时特征更高的鲁棒性,本文在LTSV的基础上进行改进,提出了两种新的基于长时特征的语音端点检测方法:(1)谱平度能够有效地分析语音功率谱的分布情况,且在语音和噪声的情况下会表现出明显的差异性。本文利用谱平度的原理,提出了 LTSV长时平度的语音端点检测方法。首先对语音进行长时分割,然后分析LTSV特征的长时分布情况,最后将语音帧内的所有频点的LTSV长时平度值的方差作为特征。本文采用设置自适应阈值的方法以及投票决策的机制进行语音端点检测,并通过实验证明,LTSV长时平度特征在分割噪声、突发噪声和类语音噪声下比LTSV具有更好的分辨力。(2)动态特征能够分析语音的动态变化,与静态特征相比,能够更好地拟合语音,而长时动态特性又能够比短时动态特性提取更多的上下文的信息。本文采用LTSV长时动态特征,利用设置自适应阈值的方法以及投票决策的机制进行语音端点检测,提出了 LTSV长时动态特性的语音端点检测方法。实验证明,在低性噪比和非平稳噪声情况下,LTSV长时动态特征比LTSV和LTSV长时平度特征具有更好的分辨力和更高的鲁棒性。
其他文献
人地关系一直都是地理学的核心研究内容,地理学的重要任务就是帮助人们认清人地关系,合理调整自身行为,以达成与地理环境之间的平衡。上个世纪60年代以来,随着人口的急剧增长
新世纪的最初五年是中国电影步入产业化的摸索阶段,一系列有关政策和措施,逐渐激活电影生产力。2004年国产故事片年产量创下历史新高。在努力遵循艺术创作规律和电影市场化的
PAMAM树状大分子是近年来出现的一类新型纳米级的合成高分子,它们高度枝化的结构和独特的单分散特性为这类化合物带来一系列不同寻常的性质和行为,如分子表面极高的官能团密
目的探索高职医学生网络依赖团体心理干预的效果,为网络依赖的有效干预提供科学依据。方法采用中文网络成瘾量表(CIAS)对河南某高职医学院校1 600名学生进行测试,分别从轻度
<正>这世界上本没有完美的汽车,正如这世界上就没有完美的人。那是否我们就要放弃梦想,降低期望呢?答案显然不是,因为我们生命的意义正在于去经历这个找寻梦想的历程。用一整
瘤患者和35例健康人对照组血清和组织中微量元素含量。结果提示,骨肉瘤组血清中Cu、Cu/Zn含量比对照组高,Zn、Fe、Se含量比对照组低;在组织中Cu、Zn、Fe含量高于对照组,Ca含量则低于对照组.上述均有统计学
目的:观察替吉奥联合同步放疗在局部晚期鼻咽癌患者中的应用效果及安全性。方法:选取2008-01-01-2010-01-01宁津县人民医院(40例)和山东大学附属省立医院(55例)收治的95例局
超氧化物歧化酶(SOD)是重要的消除体内自由基的金属酶,它的抗氧化功能不足或受损时可诱发或引起多种疾病。补充SOD制剂在临床有重要价值。本文对与人体相关的SOD在医药临床方
文章旨在通过文学在社会历史语境中所具有的文化资本来论证文学的话语权力属性.作者从分析文学的符号资本的条件即文化稀缺性(包括文化能力、文化习性和文化产品三方面),以及