说话人检索系统的研究与实现

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:lhchg1982
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,人们已经积累了大量的语音资料,如新闻录音、会议录音记录和电话录音等。如何在这些语音资料中检索出用户需要的语音片段或内容信息,是语音文档检索技术重点研究的内容。说话人检索是一项重要的语音文档检索技术,它在一段有多人交替发言的语音中,搜索出目标人的语音片段,主要应用于语音材料的检索整理和电话对话犯罪嫌疑人追踪等领域。本文实现的说话人检索系统主要由特征提取、说话人分割和说话人确认3个部分组成。对于每部分,本文分别用2种方案实现,最后,通过实验研究并比较各种方案的性能。具体工作如下:(1)分别提取了语音的线性预测倒谱系数(LPCC)和梅尔频率倒谱系数(MFCC)作为说话人特征参数。(2)实现了基于KL2距离的说话人分割。实现了基于贝叶斯信息判据(BIC)的说话人分割,并使用可变窗长的预分割方法,在保证性能的前提下降低了运算量。(3)实现了基于矢量量化(VQ)的说话人确认。实现了基于高斯混合-全局背景模型(GMM-UBM)的说话人确认,并通过模型域信道补偿,提升系统鲁棒性。(4)实现了基于说话人分割与说话人确认的说话人检索系统。通过实验,研究并比较了各种方案的性能。(5)实验发现,使用MFCC作为说话人特征,基于BIC说话人分割和GMM-UBM说话人确认的说话人检索系统性能较好。经700分钟的新闻录音测试,其召回率和正确率分别达到93.3%和87.5%。
其他文献
随着定位技术和移动通信技术的不断发展,LBS(基于位置服务)的相关应用软件越来越流行。如今,在人们的日常生活中基于位置服务应用系统扮演着非常重要的角色。在LBS中,通过手
正交频分复用是一种具有抗干扰、频谱利用率高、实现简单等优点的多载波并行调制技术,正是这些优点使得OFDM在无线通信系统中的应用越来越广泛。本文着重研究了降低OFDM系统
血液细胞分析仪是临床医学检验不可缺少的工具,而对于红细胞和白细胞的分类计数性能是血液分析仪的一个关键技术指标。当人体发生某些疾病时,血液细胞中不同类别的细胞的数量
TD-SCDMA作为我国具有自主知识产权的第三代移动通信技术主流标准,目前已正式商用。随着TD-SCDMA商用化进展,数据业务将成主流。中国移动相继推出TD无线上网、TD数据卡等业务
本文内容为作者在工信部电子信息产业发展基金资助的“宽带无线接入平台中高性能射频前端的开发”项目中所承担的工作。射频前端是通用射频仪器研发的瓶颈,其难度在于同时支
业务是电信运营商实现商业价值的关键。电信运营商引进技术,购买设备,建立通信网络,最终提供各种电信服务。在这些方面都投入了大量的资金和人力,而最终所有投资的回收都需要
多输入多输出(Multiple Input Multiple Output,MIMO)系统利用多根发射天线和接收天线来发送和接收数据,能够有效地抑制信道多径衰落,在不增加系统带宽和天线发射功率的前提
连续相位调制(Continuous Phase Modulation,CPM)是一类相位连续,包络恒定的调制方式,可适用于廉价且高效的非线性放大器;其具有较高的功率效率和频谱利用率,被广泛应用于深
IEEE802.16e是无线城域网主要标准之一,其核心物理层技术正交频分多址接入(OFDMA)是在正交频分复用(OFDM)技术基础上发展而来的多用户接入技术,用来在多用户通信系统中提供多