论文部分内容阅读
随着互联网和多媒体技术的发展,语音资料的数量迅速膨胀。快速有效地进行语音资料的检索变得越来越重要。语音检索作为语音识别研究中的一个新领域,其目的是在大量语音资源中搜索与用户给出的查询词(Query)相关联的语音段。它通过事先为语音资源建立索引,从而实现了基于语义内容的快速搜索。本文的主要工作是研究汉语语音检索系统的性能优化策略。针对语音资料中大量出现的停用词问题,本文引入了停用词处理技术。停用词被定义为在文档中出现频率很高,但是对实际的检索没有帮助的词。引入与检索内容无关的停用词,对于信息相关性的计算精度必然产生负面影响,从而制约检索的精度。由于语音检索的特殊性,本文采用左右熵的方法来进行停用词的选择。给出了停用词的选择算法,通过比较左右熵方法和词频方法可以看出,左右熵方法得到的停用词效果更好,更能反映上下文的情况。应用所提出的方法,本文给出完整的语音检索在线部分处理过程,包括利用音节Lattice建立索引,利用向量空间模型进行查询词和语音文档之间相似度的计算,最后根据相似度对查询结果排序,从而给出用户的查询结果。每个语音文档都由一个特征向量来表示,特征向量中的每个分量从语音文档对应的lattice中提取。通过搜索每个lattice,从中提取所有音节和相邻音节对的声学分来形成语音文档的特征向量。由于语音识别的不准确性以及汉语中一音多字现象的存在,本文提出对特征向量中出现的停用词音节序列加入惩罚因子,以降低其在特征向量中的权重。通过试验比较,惩罚因子取值为0.1。在检索的过程中,通过计算查询词和文档特征向量的余弦相似度来进行相关性的评定。通过实验分析系统的检索性能可以看出,经过停用词处理对系统性能得到了较好的改进。本文主要贡献:提出了基于左右熵方法的停用词选择算法,比较好地实现了在音节Lattice中自动选择停用词。提出了基于停用词惩罚方法的向量空间模型改进方法,使得检索性能有较大改善。