论文部分内容阅读
随着大数据时代的到来,音频数据量急剧增加,为了有效利用这些信息,我们迫切需要一种有效的方法来对其中的语音信息进行检索。语音查询项检索是指依据用户输入的查询项,在大量语音资源中快速检索并返回查询项精确位置信息的技术。该技术首先应用大词表连续语音识别系统将语音信号转换为文本形式,然后在文本上搜索用户请求的查询项。受前端连续语音识别系统的限制,检索性能和速度一直是制约语音检索实用化的关键因素。将多个连续语音识别系统进行融合是提高语音查询项检索系统性能的有效途径之一,本文对语音查询项检索中的多系统融合技术及其两阶段得分规整方法展开深入研究,主要工作及创新点集中在以下三个方面:(1)提出了一种基于检索结果融合的语音查询项检索方法。该方法应用多套语音识别系统生成词图,分别建立索引,各自得到检索结果及相应的置信度得分,对得分进行归一化处理后,再对它们的检索结果进行融合。该方法提升系统性能的关键在于多套语音识别系统之间具有良好的互补性。本文通过构建具有差异性的声学模型来获得互补的识别系统,同时,为了克服连续语音识别系统中因剪枝错误而引起的关键词丢失问题,采用关键词相关的软Beam宽度剪枝策略裁剪词图。实验结果表明,经过得分归一化处理后,关键词检测实际查询项权重代价(ATWV)平均相对提升30%;相比于得分归一化处理后的最佳单一系统,融合后关键词检测性能得到了10%的提升。(2)提出了一种基于词图融合的语音查询项检索方法。语音查询项检索系统的性能很大程度上依赖于连续语音识别系统的准确性,因此常使用词图等多候选识别结果建立索引进行查询项检索。词图融合方法是在检索系统的前端采用多套语音识别系统分别生成词图,然后对多个词图进行融合,有效利用其互补信息,从而提高连续语音识别系统的识别率,进而提升检索系统的性能。本文研究了基于加权有限状态转换器(Weighted Finite-state Transducer,WFST)的词图合并和词图相交融合方法,实验表明基于融合词图的连续语音识别率得到提升,在融合后的词图上进行语音查询项检索,系统性能得到明显提升。(3)提出了一种语音查询项检索中的两阶段得分规整方法。传统的检索系统主要应用关键词查询项在词图中得到的后验概率作为其置信度得分来进行关键词确认,但是不同查询项自身特征有所区别,使得它们之间的得分没有可比性。得分规整成为语音查询项检索系统中必不可少的过程。本文提出的两阶段得分规整方法,首先利用引入两个新特征的区分性得分规整方法,使得正确候选结果和错误候选结果的置信度得分区分性更大,更容易进行关键词确认;然后,应用基于优化查询项权重代价指标的得分规整方法作为后处理得到最优的关键词检测性能。实验结果表明,两阶段得分规整方法同时利用了区分性和基于优化查询项权重代价指标得分规整方法的优点,相比最佳单一得分规整方法相对提升5.8%。