基于多特征的说话人分割与聚类的研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:grnjade
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人分割与聚类(Speaker diarization)主要任务是在没有任何的先验知识的情况下,从一段录音资料中区分不同话者的说话区段,并且一一标注出来。说话人分割与聚类有很多广泛的应用,如说话人的自适应、话者追踪、说话人检索等领域。它主要涉及两大语音处理课题:说话人分割和说话人聚类。目前分割与聚类主要基于统计的方法,由于没有先验知识,话者的数目和信息未知,导致样本信息过少,最终影响该方法的准确性。本文在现有的分割与聚类研究成果基础上,针对上述说话人可用信息过少的问题,提出了一种基于多特征的,多层次的话者切分的框架,并对其中涉及到的相关算法进行了下述的研究:首先,对分割与聚类系统中关键技术进行了阐述和分析,重点研究了特征分析与抽取、说话人模型的构建、话者分割、话者聚类算法。第二,为了充分利用话者的信息,提出了一种声道参数和音源参数组合的多特征方法,并对参数进行特征选择,从而充分利用有限的参数信息,进一步提升了系统性能。第三,考察了不同距离测度的选择对语音分割的影响,减少了因分割错误而导致的错误累积,并深入研究了基于单类SVM的新的分割算法,实验验证了该算法有效性。第四,针对传统的话者分割聚类算法中切分准确度受到话者信息制约的问题等问题,引入了重分割和重聚类的机制,采用基于进化隐马尔科夫模型(EHMM)的维特比译码重分割方法以及基于距离测度和贝叶斯信息准则的分层聚类算法,实验结果验证了该系统的具有良好性能。
其他文献
学位
随着全球对能源需求的日益增大,地震勘探由简单平缓地区向复杂构造地区发展。复杂构造地区的地震勘探需要计算精度更高、计算效率更好的深度域成像,大倾角等复杂构造需要大偏移
一方面,美国驻伊拉克大使馆遭到攻击,伊朗名将在巴格达遭空袭致死,美国制造业PMI指数连续五个月处于荣枯分水岭50下方……另一方面,特斯拉对中国市场充满信心,在上海设立的“
期刊
本研究应用传统遗传学方法,分析了新纤维发育突变体GZnn的遗传方式,确定了GZnn是受一对隐性基因控制的质量性状。并利用SSR分子标记技术将该光子基因定位到10号染色体上,与已经发现的光子N_1(位于12号染色体),n_2(位于26号染色体)所在染色体不一样,鉴于美国近年新发现了n_3光子基因,故将我们发现的新的隐性光子基因命名为n_4,该光子基因与分子标记sloc1紧密连锁,距离为10.8cM,
随着多媒体技术的发展,图形、图像和视频编解码等数据密集型算法得到了广泛的运用,其标准也不断更新。通用处理器(GPP)能很好的解决算法多样性的问题,但其计算能力有限;ASIC可
对于未来一年世界经济走势的预判,国际货币基金组织(IMF)和世界银行分别认为增长速度将达到3.4%和2.7%,不过,联合国贸易与发展会议发布的报告则指出,2020年全球经济面临转向收
期刊
以太网(Ethernet)技术简单易用,价格低廉,且带宽可不断提高,无论是作为一种业务还是作为一种网络结构,城域网,广域网范围内都已经得到大规模应用。以太网的优势是以太网端口