文本无关短语音说话人识别技术研究

被引量 : 18次 | 上传用户:mai2621329
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着应用需求的推进和相关理论的发展,说话人识别的研究取得了很大的进展,国内外研究机构正在积极推动其新理论的研究、新方法的实验和实用化进程,其中,利用短语音进行训练和识别的研究备受关注。从2004年开始NIST(美国国家标准与技术署)在举办说话人识别评测(SRE)时就按照语音长度划分测试项,在语音长度最短的测试项中,训练和识别的语音长度都不大于10秒。从评测的结果来看,与语音长度较长的测试项相比,该测试项性能下降严重。这主要是因为目前的说话人识别系统主要采用概率统计模型,识别性能很大程度上依赖于训练语音和测试语音的匹配程度,而通常采用的短时倒谱特征中同时包含说话人信息和语义信息,其中语义信息的差异会影响训练和识别的匹配程度。文本相关的说话人识别性能远优于文本无关的说话人识别的主要原因就在于它保证了训练和识别中的语义是完全匹配的。但是在文本无关的说话人识别中,如果训练和测试语音太短,两者的语义内容可能存在较为严重的失配现象,而现有的语音信号处理技术不能实现语音中的语义信息和说话人信息的分离,所以这是影响文本无关说话人识别性能的重要因素。为了研究语音长度对说话人识别性能的影响,提高短语音的识别性能,本文研究主要基于以下两个思路展开:1、研究如何克服短语音条件下训练和识别语音的语义不匹配对识别性能的影响,并且针对说话人辨认和说话人确认两种应用,分别提出了解决方法。2、研究如何通过从长度有限的语音中提取尽可能多的语音特征,丰富说话人特征的描述,进而提高短语音条件下说话人识别的性能。本课题的主要贡献和创新点包括以下几个方面:1)提出了基于“说话人属性约束”的特征变换方法,通过相对抑制语义信息对短时倒谱特征分布的影响,突出说话人信息在语音特征空间分布中的作用,使同一说话人的特征分布更集中,不同说话人间的区分更明显,从而提高了短语音说话人辨认的识别率。本文利用语音信号服从内蕴的非线性流形结构分布的特点,基于语音特征在空间中的局部几何结构,构建了近邻关系关联包;利用说话人属性约束变换,减少了短时倒谱特征中语义信息对说话人辨认的影响;并推导出了该变换中的显性变换矩阵,在GMM-UBM(Gaussian Mixture Model-Universal Background Model,混合高斯模型-通用背景模型)模型的基线说话人辨认系统进行了测试。在同一数据集上,跟已有的特征变换方法相比,在训练语音长度为10秒,测试语音长度为10秒、8秒、5秒、3秒和2秒时,该方法误识率的相对改善率分别为13.48%、9.58%、8.75%、9.90%和11.92%。2)提出了基于UBM(Universal Background Model,通用背景模型)混元子空间的文本无关说话人确认方法,寻找训练语音和测试语音的超向量中语义匹配的单元,充分利用这部分的识别结果,同时,减少超向量特征中语义不匹配部分的影响,降低了短语音说话人确认中的等错误率。本文根据文本相关的说话人识别的性能要远优于文本无关的说话人识别的性能的客观事实,以及训练语音和测试语音中的语义信息不匹配是影响短语音说话人识别性能的主要原因,提出了基于通用背景模型的混元在空间中分布的近邻关系,通过划分混元子空间的方法将文本无关的说话人识别隐性地转换为基于“语义内容”的说话人识别方法。利用语音特征对混元子空间的归属关系,对训练语音和测试语音进行拆分,基于各子空间内的子超向量识别,实现文本无关到“语义内容”相关的转换,最后通过设计合理的融合方法对各子空间的识别结果进行融合。在同一数据集上,本文提出的说话人确认方法和已有的基于子空间的说话人确认系统相比,在训练语音的长度为10秒,测试语音长度为10秒、8秒、5秒、3秒和2秒时,其等错误率的相对改善率分别为8.67%、10.22%、6.13%、5.00%和6.10%。3)提出了“仿生神经网络激励源”特征,将仿生模式识别的思想引入到说话人激励源建模中,验证了该特征用于说话人识别的有效性,并与基于短时倒谱特征的系统结合,提高了说话人识别的性能。针对现有的基于AANN(Auto-Associate Neural Network,自联想神经网络)方法从LP(Linear Prediction,线性预测)残差中提取激励源特征的不足,提出了基于仿生神经网络的说话人LP残差建模方法,并以此构建了激励源特征和相应的识别系统。该方法避免了传统神经网络中复杂的迭代训练过程,同时利用仿生模式识别的“基于认知而非区分”的思想有效地提高了系统在小样本,也就是短语音条件下的识别效果。在同一数据集上,基于LP残差向量,跟已有的基于AANN的识别方法相比,本文提出的基于仿生神经的识别方法在说话人辨认中,当训练语音的长度为10秒,测试语音长度为10秒、8秒、5秒、3秒和2秒时,其误识率相对改善率分别为6.98%、11.59%、9.67%、9.00%和18.45%。鉴于在说话人识别中,基于LP残差的激励源特征对短时倒谱特征具有很好的互补性,研究了基于短时倒谱特征和激励源特征融合的短语音说话人识别,并设计了基于可信度的短时倒谱特征和激励源特征判决融合方法。通过对不同特征间相关性的度量,研究了说话人识别中LP残差激励源特征对短时倒谱特征的互补性,为说话人识别中激励源特征和短时倒谱特征的结果融合提供了理论依据。针对说话人辨认和说话人确认,分别采用了基于单次识别中各特征识别结果可靠性的动态融合方法和基于不同特征在说话人识别中固有的区分性能的静态融合方法。相对于单一的短时倒谱特征,两种特征的识别结果融合之后,当训练语音的长度为10秒,测试语音长度分别为10秒、8秒、5秒、3秒和2秒时,系统识别性能的相对改善率分别为13.44%、11.11%、10.22%、10.12%和8.95%(说话人辨认)和5.51%、5.02%、10.72%、8.43%和2.55%(说话人确认)。
其他文献
随着电视频道市场竞争的全球化进程逐步深化和中国电视频道收视市场化程度日益加剧,我国地方市级电视频道的市场竞争的烈度日趋白热化,电视频道间的竞争已经从传统意义上的节
鲍德里亚是当代著名的哲学家、社会学家,思想离经叛道,著作丰富深刻。鲍德里亚从未专门写过关于艺术的论著,但艺术一直是他密切关注的文化实践。作为一向游离于主流的思想家,
<正>《社会保险法》是保障和改善民生领域的又一部支架性法律,是新中国成立以来第一部社会保险制度的综合性法律。工伤保险待遇先行支付制度是《社会保险法》创设的重要制度,
宋代在词的发展史上处于十分重要的地位,是词发展的巅峰时期。宋代文人几乎都进行过词的创作,而山水田园词作为词创作题材的一部分,在词人的创作活动中占据了较为重要的一部分。
2007年下半年美国次贷危机爆发并逐渐演化为全球性的金融危机,美国许多银行倒闭破产,其中一个很重要的原因就是过分强调股东利益最大化造成绩效考核及经营的短期化,这对正处
随着知识经济时代的到来,现代科学技术快速发展,客户对产品差异化的需求越来越强烈,企业越来越依赖于高水平的研发能力获取市场份额和竞争优势。因此,现代企业对研发人员的需
图形处理器(GPU)是一种针对图形处理的专用处理器。近几年来,GPU的单精度峰值性能已经从每秒十亿次浮点运算(Gflops)增长到每秒万亿次浮点运算(Tflops)。随着其可编程性的不
输电网规划作为电力系统规划的重要部分,对于保障电力系统稳定发展具有十分重要的意义。理想的电网规划方案应满足电力系统可靠性、经济性等多方面的要求。然而,由于问题的复
钙激活氯通道(CaCC)是一类阴离子通道,具有钙离子和电压依赖性。其组织分布广泛,参与了众多生理过程,如感觉传导、神经和心肌兴奋性调节、平滑肌收缩、腺体和上皮分泌以及抑制多精
在村社情境中,农民合作社不仅承载着乡土权威和社区记忆,而且还新生出一种现代性指向的组织秉性。无论是村社强干预或弱干预,农民合作社发展与村社规制都呈现复杂的交织状态