网络环境下实时音频解码与鲁棒说话人识别系统研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lylh0628
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络环境下说话人识别是指在互联网音频信息中查找出目标说话人的一种技术,在安全、刑侦等领域具有重要的实际应用价值。本文以搭建工程化的网络环境下说话人识别系统为目的,开展相关的研究工作。进行网络环境下说话人识别,首先要将互联网中各种编码格式的音视频实时解码成统一规格的非压缩音频。本文在实验室现有的实时音频解码系统基础上,分析了不同协处理器(Coprocessor)实现实时音频解码的优劣,并将实际网络中占有量最大的MP3(MPEG Audio Layer 3)解码过程移植到众核芯片TILE64上,以解决实时音频解码系统占有CPU ( Central Processing Unit)资源较高、解码速度较低的问题。含有TILE64实时解码MP3功能的新实时音频解码系统平均解码速度达到200Mbps,比原来提高了1倍,而功耗并未增加。其次,利用新实时音频解码系统采集实际网络中的大批音视频数据,并实时地解码成8KHz采样率、16bits采样位数、单声道且时长为10秒的标准处理单元,然后通过VAD(Voice Activity Detection)和基于高斯核函数的SVM(Support Vector Machine)方法进行语音/非语音分类,过滤出约占总量七分之一的语音标准处理单元集合,并以此语音标准处理单元集合为基础,整理出用于说话人识别测试的真实网络语料库。接下来,搭建基于GMM-UBM(Gaussian Mixture Model-Universal Background Model)的文本无关的通用说话人辨认系统,通过实验表明,通用说话人识别系统能够在实验环境下表现良好,但在真实网络语料库中,由于非目标说话人的海量语音数据影响,虚警数远超过正确识别数,无法满足实际工程需求。最后,针对上述通用说话人识别系统不能胜任网络环境下工程需求的问题,设计并实现了两种说话人识别确认方法高阶语义窗和音素级对比方法,通过实验表明,这两种方法在提高通用说话人识别系统的鲁棒性上都表现良好。其中,两种方法的融合改进系统鲁棒性更加明显,虚警率在0.1‰时,召回率达到50%,与通用说话人识别系统相比提高了6.25倍,基本达到实际工程的需求。
其他文献
椭圆曲线加密算法在现实生活中的应用是非常广泛的,其加密效果是经过实践检验的。椭圆曲线加密算法的加解密过程会涉及到有限域上的基本的算术运算。而且本文所涉及的算术运
音频检索技术发展的时间还不长,目前关于音频检索技术的研究主要集中在检索的算法上。音频样例检索是音频检索的主要方法之一。在基于样例的音频检索中,音频样例的选择对检索
在SOA环境下,服务组合用以将多个服务构件组织到一起满足大粒度需求,被看作是服务计算领域的一个重要的热点理论问题。国内外研究者从不同角度设计并开发了大量的服务组合算
植物病虫害是农作物减产的主要原因,给农业生产带来了极大的损失。随着基因工程技术的发展,人们已经能够将多种抗病虫害的基因转入目的植物中。发掘植物自身的抗性基因,培育
图像融合是信息融合中以图像为研究对象的分支,图像融合就是把多个不同模式的图像传感器获得的同一场景的多幅图像,或同一传感器在不同时刻或不同方式下获得的多幅图像合成一
社交是人类生活的本质需求之一。SNS(Social Networking Services,即社会性网络服务)平台是以分布式计算理论为基础,通过P2P(Peer-to-Peer,对等)技术构建的下一代基于个人的
天然气是目前主要的民用能源,其输送的可靠性直接影响着广大人民的切身利益。压缩机组作为天然气输送系统动力环节,其运行的可靠程度以及操作人员技术水平直接影响着整个系统的
网络基础设施的建设和视频编码技术的发展,催生了一系列的视频应用,包括视频电话、网络视频点播、高清电视广播等等。为了使视频编码的码流更好地适应各种网络环境和用户终端
信息时代的来临,使网络来到我们每个人的身边。而病毒、蠕虫、木马等恶意代码,也随着网络经济的蓬勃而迅猛发展。网络安全和人身安全对网民而言一样重要。恶意代码检测系统使
随着服务系统在现代服务业中的广泛应用,服务质量问题引起了人们越来越多地关注,服务质量监控与评价方法成了服务学研究的一个重点内容。服务质量功能展开(SQFD)是覆盖服务系