说话人识别中的背景模型与得分问题研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:bingshanhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一种生物认证识别技术,说话人识别技术具有远程控制的独特优势,在互联网发展日新月异的今天拥有非常广泛的应用前景。近年来出现的说话人识别主流方法如GMM-SVM, JFA 和 i-vector等都是以GMM-UBM (Gaussian Mixture Model-Universal Background Model,高斯混合-通用背景模型)的识别框架为基础。因此对GMM-UBM的研究仍有很大价值。本文基于GMM-UBM的说话人识别框架,对背景模型建模与得分问题进行了新的探索,并提出了改进系统安全性和性能的方法。本文主要贡献如下:1.对通用背景模型UBM的构建方法进行了新的尝试。我们验证了自包容的UBM的有效性,并在此基础上提出了支撑说话人的概念,即对构建UBM起关键作用的是部分关键说话人。通过PCA降维我们发现,空间分布分散的说话人更有助于组成支撑说话人集合,比随机选择的方式平均识别效果好1%左右;2.针对说话人识别系统的样本复制语音攻击极大限制了说话人识别技术的应用和发展。我们提出了一种基于模型阶数相关的似然得分单调性(Order dependent Likelihood Score Monotonic, OLSM)的样本复制语音检测方法,该方法利用了GMM模型的过拟合现象,可以有效提高GMM-UBM说话人识别系统的安全性。MASC库上该方法对样本复制语音的检测正确率达99.3%。3. GMM token是似然得分最高的高斯分量的索引。作为一种高层次特征,GMM token可以提供很多辅助信息来提高系统性能。传统GMM token中只取得分最高的高斯分量,我们将它扩展为取前N个得分最高的高斯分量,即N-Best token;此外,我们研究了不同GMMtokenizer对改进系统性能上的不同影响。在基于GMM token配比相似度得分校正的说话人识别系统上进行了验证,性能提升效果良好。
其他文献
岩石节理裂隙普遍存在于各类岩石中,掌握岩石节理的性质对于岩石工程项目的成败,山体灾害的精确预测起着至关重要的作用,通过观察岩体裂隙的情况判断岩体强度是否会危害相关工程
Web服务其实就是一种运行在网络上的应用程序,它可以在Web环境中被描述、被发布、被查找以及被调用。虽然Web服务给应用程序的集成提供了方便,但单个Web服务的功能往往设计得
音频分类与分割是音频检索技术的前提和基础,他们为音频结构化和音频信息的深度分析奠定了坚实的基础。基于内容的音频分类属交叉学科研究,涉及众多相关技术,如语音信号处理、模
无线自组织网络路由协议根据不同的策略从已经建立好的拓扑中选择一条或多条相互连接的链路组成路径,来进行数据包的传输。当拓扑中存在如“热点”这样的特殊节点时,路由协议
目前对异构数据库的交换、信息访问和检索的需求变得越来越重要,相比之下,访问异构数据库需要处理不同的模式、不同的数据模型、不同的查询语言以及不同的接口。   本文旨在
网络、3G技术的发展促进了视频通信领域中具有较高压缩效率、更好的网络健壮性的视频压缩标准的应用和研究。但视频压缩编码的计算密集性和数据密集性依然是H.264/AVC等标准
医学图像三维可视化是一种将传统的计算机图形学的相关知识运用到医学领域中,在计算机上对医疗设备获取的二维断层图像,通过图形学技术的处理和转化,根据视觉原理显示为直观
自从曼德尔布罗特(Mandelbort)引入分形概念以来,分形作为一门新兴的非线性学科,受到了学术界的广泛重视。分形理论主要描述自然界与非线性系统中不规则的、具有自相似结构特
在当前信息技术高速发展的后PC时代,嵌入式系统已经广泛地渗透到人们的日常生活等方方面面中。IT技术大融合及“三网融合”加速了嵌入式系统产业化进程。随着家用电器向数字