基于多特征的说话人分割与聚类的研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：grnjade

【摘要】

：

说话人分割与聚类(Speaker diarization)主要任务是在没有任何的先验知识的情况下,从一段录音资料中区分不同话者的说话区段,并且一一标注出来。说话人分割与聚类有很多广泛

【作者】

：

凌锦雯

【机构】

：

中国科学技术大学

【出处】

：

中国科学技术大学

【发表日期】

：

2011年期

【关键词】

：

说话人分割说话人聚类进化隐马尔科夫模型贝叶斯信息准则

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

说话人分割与聚类(Speaker diarization)主要任务是在没有任何的先验知识的情况下,从一段录音资料中区分不同话者的说话区段,并且一一标注出来。说话人分割与聚类有很多广泛的应用,如说话人的自适应、话者追踪、说话人检索等领域。它主要涉及两大语音处理课题:说话人分割和说话人聚类。目前分割与聚类主要基于统计的方法,由于没有先验知识,话者的数目和信息未知,导致样本信息过少,最终影响该方法的准确性。本文在现有的分割与聚类研究成果基础上,针对上述说话人可用信息过少的问题,提出了一种基于多特征的,多层次的话者切分的框架,并对其中涉及到的相关算法进行了下述的研究:首先,对分割与聚类系统中关键技术进行了阐述和分析,重点研究了特征分析与抽取、说话人模型的构建、话者分割、话者聚类算法。第二,为了充分利用话者的信息,提出了一种声道参数和音源参数组合的多特征方法,并对参数进行特征选择,从而充分利用有限的参数信息,进一步提升了系统性能。第三,考察了不同距离测度的选择对语音分割的影响,减少了因分割错误而导致的错误累积,并深入研究了基于单类SVM的新的分割算法,实验验证了该算法有效性。第四,针对传统的话者分割聚类算法中切分准确度受到话者信息制约的问题等问题,引入了重分割和重聚类的机制,采用基于进化隐马尔科夫模型(EHMM)的维特比译码重分割方法以及基于距离测度和贝叶斯信息准则的分层聚类算法,实验结果验证了该系统的具有良好性能。

其他文献

海洋表皮葡萄球菌S14细菌素SE14的分离纯化研究

学位

复杂构造地震勘探关键问题的研究

随着全球对能源需求的日益增大，地震勘探由简单平缓地区向复杂构造地区发展。复杂构造地区的地震勘探需要计算精度更高、计算效率更好的深度域成像，大倾角等复杂构造需要大偏移

学位

微电子机械系统数字地震检波器快速离散曲波变换偏移成像克希霍夫逆时偏移成像

商务部研究院研究员梅新育:选择中国外企选对了

一方面,美国驻伊拉克大使馆遭到攻击,伊朗名将在巴格达遭空袭致死,美国制造业PMI指数连续五个月处于荣枯分水岭50下方……另一方面,特斯拉对中国市场充满信心,在上海设立的“

期刊

棉纤维发育突变体SSR标记定位和遗传相似性分析

本研究应用传统遗传学方法，分析了新纤维发育突变体GZnn的遗传方式，确定了GZnn是受一对隐性基因控制的质量性状。并利用SSR分子标记技术将该光子基因定位到10号染色体上，与已经发现的光子N_1(位于12号染色体)，n_2(位于26号染色体)所在染色体不一样，鉴于美国近年新发现了n_3光子基因，故将我们发现的新的隐性光子基因命名为n_4，该光子基因与分子标记sloc1紧密连锁，距离为10.8cM，

学位

棉纤维发育突变体SSR标记指纹图谱QTL定位

面向媒体算法的粗粒度可重构PE及PE阵列架构的设计

随着多媒体技术的发展,图形、图像和视频编解码等数据密集型算法得到了广泛的运用,其标准也不断更新。通用处理器(GPP)能很好的解决算法多样性的问题,但其计算能力有限；ASIC可

学位

粗粒度可重构媒体算法并行计算通用处理器运动补偿去块滤波效应

2020年世界经济增长动能的正负博弈

对于未来一年世界经济走势的预判,国际货币基金组织(IMF)和世界银行分别认为增长速度将达到3.4％和2.7％,不过,联合国贸易与发展会议发布的报告则指出,2020年全球经济面临转向收

期刊

以太网二层交换芯片的MAC地址交换器的设计与实现

以太网(Ethernet)技术简单易用,价格低廉,且带宽可不断提高,无论是作为一种业务还是作为一种网络结构,城域网,广域网范围内都已经得到大规模应用。以太网的优势是以太网端口

学位

以太网MAC地址学习MAC地址查找MAC地址老化

基于多特征的说话人分割与聚类的研究

其他学术论文