论文部分内容阅读
说话人识别技术如今在日常生活中得到广泛地应用。由于移动互联网的快速发展,语音数据量正在不断地增长,大规模应用下的快速识别任务成为新的研究热点。然而对于研究人员来说,除去算法层面的挑战,如何构建一个大规模的说话人识别语音库是新的难题。传统的说话人识别语音库的构建方式成本高昂且时间周期长,难以满足当前的需求。本课题以互联网上海量的语音资源作为提取目标,针对实际的应用场景设计了一套以说话人分割与聚类技术为核心的说话人识别语音库构建方法。该方法不仅降低了语音采集阶段的金钱成本,并利用半自动的处理方式极大地缩短构建的时间周期。本文重点研究了语音库构建过程中语音提取、语音检验等核心问题。在语音提取方面,主要针对端点检测、聚类测度、模型选择三个方面做出改进。基于频谱熵的端点检测特点提出了一种改进的带熵检测特征,实验证明该特征在复杂背景下依旧能保持稳定的检测能力。结合本课题的数据特点及应用目的,设计了一种基于T2距离与信息量差异的两级说话人聚类判决算法,实验结果显示该算法能有效地改善说话人聚类的效果,并设计了一种停止阈值计算公式,使聚类能在合适的位置停止。说话人建模阶段,在分析了出现误判的原因的基础上,设计了一种基于背景噪声与全局说话人模型的似然得分之差的语音过滤方法,能够在数据帧层面上去除掉无效的语音。在语音检验方面,以说话人确认技术为基础设计了一种语音检验与语音过滤机制,以达到语音类型判断以及语音去重的目的。结合上述提出的语音提取与语音检验方式,本文设计了一套完整的语音库构建方法。通过对比实验结果可以看到,提出的改进算法在说话人聚类效果上有明显的提升。最后基于此方法,构建了一个包含18833位说话人的初具规模的说话人识别语音库,并通过抽样调查的方式验证了其可用性。