基于韵律特征的SVM说话人识别

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:birchwoods2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音信号是用于个人身份确认的一种有效的生物特征,与文本无关的说话人识别的研究也是语音信号处理的一个重要的研究方向,其研究具有重要的理论意义和广泛的应用前景。为了考察最新的相关研发进展,并提供统一的衡量标准,美国国家标准技术研究院(NIST)于1996年起开始主持说话人识别评测。NIST说话人评测代表了说话人识别领域的最高水准,NIST设立了多项评测任务,探索和尝试各种语音条件下的研究方法,并为各个项目指定统一的电话和广播语音(多环境、多通道、大规模说话人)、测试基准、评测规则和标准。其中一个任务是采用长语音进行说话人识别,是为了探索用于与文本无关的说话人识别的语音信号高层次信息而设置的。除了短时倒谱参数,语音中的高层次信息也是一种有效的说话人特征参数,但其通常与文本内容有关,因此研究从信号中提取可用于与文本无关说话人识别的语音高层次特征信息就成了目前研究的焦点。本文对韵律的提取方法及其与区辨模型结合运用于与文本无关的说话人识别进行了探讨。从与文本无关的说话人识别的特点出发,本文先讲述概率统计模型,从文本相关的语音韵律(语音特征随时间变化的轨迹)中提取的特征信息,进行数据压缩、聚类,再利用支持向量机SVM进行区分。文章提出了一种基于小波分析从韵律中提取超音段韵律信息的方法,分别从声道的MFCC轨迹和基频轨迹,时域能量轨迹中进行超音段韵律特征的提取。由MFCC各维参数的近似不相关和声道缓变的特点,MFCC轨迹的韵律特征只以概貌系数来刻画,提取的PMFCC作为主参数,在参数级和由基频F0轨迹的六维韵律特征参数PF0、由时域能量轨迹的六维韵律特征参数PE,组成更加有效的PMFCCFE参数,进而利用支持向量机SVM模型进行区分。在NIST数据库上的实验表明,与传统的短时MFCC的GMM-UBM系统相比,超音段韵律特征PMFCCFE的GMM-SVM系统的EER相对下降了57.9%,MinDCF相对下降了41.4%。显著提高了说话人识别的性能。
其他文献
学位
我们试图用同源结构模拟的方法,预测FD-TAP的三维结构,解释科学研究中观察到的实验现象,并为进一步研究FD-TAP的结构和功能间的关系奠定基础.以大肠杆菌碱性磷酸酯酶(BAP)为
伴随着电子技术的飞速发展,高科技和信息化已成为现代化战争的重要特征。为了应对未来战场的复杂环境,提高武器装备的竞争能力和生存能力,世界各国都把发展和研究隐身技术列为国
跳频扩频通信具有良好的抗干扰和安全系数高等特性,广泛应用于多种通信系统中。跳频扩频通信系统中跳频序列码的汉明相关值的大小是评价系统性能优劣的重要指标之一。在通信终