基于停用词处理的汉语语音检索方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:dl_smh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和多媒体技术的发展,语音资料的数量迅速膨胀。快速有效地进行语音资料的检索变得越来越重要。语音检索作为语音识别研究中的一个新领域,其目的是在大量语音资源中搜索与用户给出的查询词(Query)相关联的语音段。它通过事先为语音资源建立索引,从而实现了基于语义内容的快速搜索。本文的主要工作是研究汉语语音检索系统的性能优化策略。针对语音资料中大量出现的停用词问题,本文引入了停用词处理技术。停用词被定义为在文档中出现频率很高,但是对实际的检索没有帮助的词。引入与检索内容无关的停用词,对于信息相关性的计算精度必然产生负面影响,从而制约检索的精度。由于语音检索的特殊性,本文采用左右熵的方法来进行停用词的选择。给出了停用词的选择算法,通过比较左右熵方法和词频方法可以看出,左右熵方法得到的停用词效果更好,更能反映上下文的情况。应用所提出的方法,本文给出完整的语音检索在线部分处理过程,包括利用音节Lattice建立索引,利用向量空间模型进行查询词和语音文档之间相似度的计算,最后根据相似度对查询结果排序,从而给出用户的查询结果。每个语音文档都由一个特征向量来表示,特征向量中的每个分量从语音文档对应的lattice中提取。通过搜索每个lattice,从中提取所有音节和相邻音节对的声学分来形成语音文档的特征向量。由于语音识别的不准确性以及汉语中一音多字现象的存在,本文提出对特征向量中出现的停用词音节序列加入惩罚因子,以降低其在特征向量中的权重。通过试验比较,惩罚因子取值为0.1。在检索的过程中,通过计算查询词和文档特征向量的余弦相似度来进行相关性的评定。通过实验分析系统的检索性能可以看出,经过停用词处理对系统性能得到了较好的改进。本文主要贡献:提出了基于左右熵方法的停用词选择算法,比较好地实现了在音节Lattice中自动选择停用词。提出了基于停用词惩罚方法的向量空间模型改进方法,使得检索性能有较大改善。
其他文献
神经网络的学习方式可分为两种,一种是有监督的学习,这时利用给定的训练样本进行分类或模仿:另一种是非监督的学习,这时只规定学习方式或某些规则,而具体的学习内容随系统所处的环
基于SIP协议的服务可以用在市话和长途电话技术、在线消息和即时消息、I.Centrex/Hoste.PBX、语音短信、一键通话、多媒体会议等。SIP的提出和发展为IP电话技术的成熟和演进
Petri网是一种系统描述和分析的工具。在Petri网的诸多性质研究中,可达性研究大概是最基本的一个动态性质研究。可达性在一定意义上可说是研究Petri网其他动态性质的基石,许多
中国邮路问题是管梅谷教授在1960年第一次提出来的。它描述了一个极具现实意义的问题:一个邮递员负责一个地区的信件投递,每天从邮局出发,走遍该地区的所有街道再返回邮局,问
本文提出了一种基于Snort(sniffer and more)的网络入侵检测系统,Snort是一个强大的轻量级的网络入侵检测系统,它具有实时数据流量分析和日志IP网络数据包的能力,能够进行协议分
随着网络的迅速发展,行业应用中产生的大量数据可能分布存储在通过网络连接的多个站点上。在对这些数据进行序列模式挖掘时,一些特殊应用要求不能对这些数据进行传输,原有的
软件复用是解决软件危机的有效途径,而软件构件开发是实现软件复用的关键因素。在基于构件的软件开发中构件的分类和检索是实现软件复用的基础。基于构件的软件开发能够有效降
图像融合技术作为多传感器信息融合的一个非常重要的分支--可视信息的融合,近年来,引起了世界范围内的广泛关注和研究热潮。图像融合就是对多个传感器采集到的关于同一场景或
医学图像可视化是当前一个研究热点问题,它将计算机图形学和图像处理技术运用在生物医学工程中,在医学诊断、手术规划及模拟仿真等都方面都有着广泛的应用。体绘制技术已经成
电子商务的飞速发展和人们外出购物时间的急剧减少,网上购物逐渐成为了一种趋势,越来越多的人开始认识、了解以及使用网络来进行所需物品的采购,这为我国物流产业的长足发展提供