论文部分内容阅读
说话人识别是生物特征识别中最重要的身份认证技术之一。它通过分析人的声音波形特征,对目标说话人进行身份确认。目前,说话人识别技术的应用和研究绝大部分都集中在普通个人电脑和服务器上。然而,随着移动互联网的发展,移动平台上的身份认证需求不断扩大。本文主要任务是设计并实现一个在移动平台上运行的说话人识别系统。并通过大规模实验和测试,使得该系统在识别率和实时性上取得了一定的性能改善和优化。本文的主要贡献,可以归纳为以下几点:1设计并实现了一个参与NIST SRE评测的说话人识别子系统通过参加美国国家标准与技术局组织的NIST SRE说话人评测,我们利用GMM-UBM和本征通道因子分析等技术,实现了一个说话人识别系统。本文分别从特征预处理,特征提取,模型训练、得分规整策略以及多子系统融合的角度深入介绍了该系统。针对不同通道因素对说话人识别系统的影响,我们又采用因子分析和通道矩阵的对策来建立适应多通道的说话人识别模型。2设计并实现了移动平台的说话人识别系统利用现有的说话人识别系统,我们又在OPHONE移动平台上设计了一个说话人识别系统。该平台说话人识别系统的主体设计框架和NIST SRE系统类似。但是,我们通过大量的对比实验和参数调整实验,在识别率和实时性之间找到了一组最适合移动平台的实验参数。并通过小规模的测试和用户反馈实验,改善系统前端的用户体验。3提出了一个基于移动平台的快速说话人模型浮动阀值确定策略针对移动平台计算能力不足,计算资源匮乏的问题,我们通过浮动阀值系数,快速阀值上下限确定技术对移动平台说话人识别系统的阀值进行确定。阀值的上限由训练语音产生,而下限来自于一个冒领者语音数据库。此外,系统在验证失败后,还会推送一个机器计算的推荐系数阀值,供用户参考。4提出了一种说话人模型的自适应方法和多模型判别策略针对说话人语音的时间漂移以及话筒位置变化对阀值的影响,我们又提出了说话人模型的自适应方法和根据话筒位置变化的多模型判别策略。根据说话人一段时期语音的变化,我们将记录近期一部分说话人语音,并定期对说话人模型进行更新。对不同的话筒位置,我们会重新训练多个混合高斯模型减少话筒位置变化的影响。