面向OPHONE手机的说话人识别技术移植研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:leezero555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别是生物特征识别中最重要的身份认证技术之一。它通过分析人的声音波形特征,对目标说话人进行身份确认。目前,说话人识别技术的应用和研究绝大部分都集中在普通个人电脑和服务器上。然而,随着移动互联网的发展,移动平台上的身份认证需求不断扩大。本文主要任务是设计并实现一个在移动平台上运行的说话人识别系统。并通过大规模实验和测试,使得该系统在识别率和实时性上取得了一定的性能改善和优化。本文的主要贡献,可以归纳为以下几点:1设计并实现了一个参与NIST SRE评测的说话人识别子系统通过参加美国国家标准与技术局组织的NIST SRE说话人评测,我们利用GMM-UBM和本征通道因子分析等技术,实现了一个说话人识别系统。本文分别从特征预处理,特征提取,模型训练、得分规整策略以及多子系统融合的角度深入介绍了该系统。针对不同通道因素对说话人识别系统的影响,我们又采用因子分析和通道矩阵的对策来建立适应多通道的说话人识别模型。2设计并实现了移动平台的说话人识别系统利用现有的说话人识别系统,我们又在OPHONE移动平台上设计了一个说话人识别系统。该平台说话人识别系统的主体设计框架和NIST SRE系统类似。但是,我们通过大量的对比实验和参数调整实验,在识别率和实时性之间找到了一组最适合移动平台的实验参数。并通过小规模的测试和用户反馈实验,改善系统前端的用户体验。3提出了一个基于移动平台的快速说话人模型浮动阀值确定策略针对移动平台计算能力不足,计算资源匮乏的问题,我们通过浮动阀值系数,快速阀值上下限确定技术对移动平台说话人识别系统的阀值进行确定。阀值的上限由训练语音产生,而下限来自于一个冒领者语音数据库。此外,系统在验证失败后,还会推送一个机器计算的推荐系数阀值,供用户参考。4提出了一种说话人模型的自适应方法和多模型判别策略针对说话人语音的时间漂移以及话筒位置变化对阀值的影响,我们又提出了说话人模型的自适应方法和根据话筒位置变化的多模型判别策略。根据说话人一段时期语音的变化,我们将记录近期一部分说话人语音,并定期对说话人模型进行更新。对不同的话筒位置,我们会重新训练多个混合高斯模型减少话筒位置变化的影响。
其他文献
本课题的背景是为吸尘机器人自动导航系统找出一个快速准确的稠密匹配算法,所以本文围绕着稠密匹配实现的相关步骤,通过理论和实践相结合的方式,深入系统的研究了稠密匹配的
基于案例的推理是人工智能领域中的一种推理技术,克服了传统专家系统出现的知识获取瓶颈等问题,能够从新案例中获取知识,反映专家的思维过程,与医学诊断具有较高的相似性。因此,案
奇异值分解(SVD,Singular Value Decomposition)是一种正交变换,它可以将矩阵对角化。其优势在于奇异值具有相对稳定性。人们利用这一特性,将这一数学理论应用到数字水印中,并取得
本文由方法和实现两个不同角度给出了一套由全网网络数据源环境中抽取平行句对的方法。从句对挖掘算法角度上,将全网网络数据源分为对照网页和平行网页两种形式进行了网页中
无线传感器网络,特别是 adhoc网络的应用在过去的十年逐渐变得非常重要,这导致几个问题需要从实用的角度被重新审视,比如可靠性和可用性。而且,由于实际部署环境对网络稳定性和
智能手机将成为人们最理想的移动通讯终端[1],而智能手机开发方法的好坏将是智能手机在手机市场所占比例高低的决定因素。作为典型的嵌入式系统,具有嵌入式系统开发中普遍存
计算机图形技术和仿真技术的飞速发展,推动了对自然界中植物仿真的研究。虚拟植物涉及到植物学、数学、图形学、教育学等多种学科,是一个跨学科的交叉性研究领域。准确的说虚
本文介绍了地理信息共享模式的发展历程,分析从面向文件共享,面向数据库共享的模式思路,发展了以在线服务体系为核心的地理信息共享新模式。分析了地理信息共享服务的目标、服务
广播是无线传感器网络中的基本问题之一,它的效率直接决定了许多高层应用和协议(如路由发现协议)的性能。根据所要广播的消息个数不同,可以将广播问题划分为单消息广播和多消
Web服务是一种新型的、分布式应用程序,以其完全开放、松散耦合、基于标准、高度可集成等优点,得到产业界和学术界的广泛认可。现有的众多Web服务因服务粒度过小的问题而限制