论文部分内容阅读
说话人分割与聚类(Speaker diarization)主要任务是在没有任何的先验知识的情况下,从一段录音资料中区分不同话者的说话区段,并且一一标注出来。说话人分割与聚类有很多广泛的应用,如说话人的自适应、话者追踪、说话人检索等领域。它主要涉及两大语音处理课题:说话人分割和说话人聚类。目前分割与聚类主要基于统计的方法,由于没有先验知识,话者的数目和信息未知,导致样本信息过少,最终影响该方法的准确性。本文在现有的分割与聚类研究成果基础上,针对上述说话人可用信息过少的问题,提出了一种基于多特征的,多层次的话者切分的框架,并对其中涉及到的相关算法进行了下述的研究:首先,对分割与聚类系统中关键技术进行了阐述和分析,重点研究了特征分析与抽取、说话人模型的构建、话者分割、话者聚类算法。第二,为了充分利用话者的信息,提出了一种声道参数和音源参数组合的多特征方法,并对参数进行特征选择,从而充分利用有限的参数信息,进一步提升了系统性能。第三,考察了不同距离测度的选择对语音分割的影响,减少了因分割错误而导致的错误累积,并深入研究了基于单类SVM的新的分割算法,实验验证了该算法有效性。第四,针对传统的话者分割聚类算法中切分准确度受到话者信息制约的问题等问题,引入了重分割和重聚类的机制,采用基于进化隐马尔科夫模型(EHMM)的维特比译码重分割方法以及基于距离测度和贝叶斯信息准则的分层聚类算法,实验结果验证了该系统的具有良好性能。