论文部分内容阅读
随着语音识别技术的日益成熟和多媒体数据的爆炸式增长,语音检索技术越来越得到人们的重视,也正在得到越来越广泛的应用。语音检索一直面临两大难题:语音识别错误问题和集外词问题,这两个问题严重影响语音检索的准确率和召回率。本文针对这两个问题从索引结构、查询扩展、语义分析等角度展开,来改进语音关键词检测的性能。主要工作和创新包括以下几个方面:1.研究了基于混淆网络的两层索引检索结构的生成和应用将词混淆网络转换成音节的混淆网络,构建one-best和音节混淆网络的两层索引结构。实验表明使用one-best和音节的混淆网络两层索引在精确率下降不多的情况下,能有效提高检索的召回率,词混淆网络转换而来的音节混淆网络将各个词之间的语义约束性引入,同时音节提升了同音词间的兼容性,检索时one-best索引的信息可以用来更好的提高了检测性能。2.研究了基于混淆矩阵的查询扩展算法将利用one-best结果和词混淆网络训练的混淆矩阵应用于输入端进行查询扩展,并引入常用音节串模型,实验表明,在之前索引的基础上,引入音节串模型的查询扩展,不仅能够将识别结果完全错误的信息进行一定比例的召回,而且检索精度相对普通的查询扩展有所提升。3.提出了基于语言模型和词激活力检索排序算法在两层索引的基础上,将语言模型和表示长距离信息的词激活力模型引入来对检索结果进行过滤排序,滤除虚警信息,实验表明语言模型和词激活力这些语义信息的引入能很好的对检索结果进行约束和过滤,提升检索结果的性能。