基于停用词处理的汉语语音检索方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：dl_smh

【摘要】

：

随着互联网和多媒体技术的发展,语音资料的数量迅速膨胀。快速有效地进行语音资料的检索变得越来越重要。语音检索作为语音识别研究中的一个新领域,其目的是在大量语音资源中

【作者】

：

蒋斌

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2008年期

【关键词】

：

汉语语音检索停用词左右熵音节lattice 向量空间模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网和多媒体技术的发展,语音资料的数量迅速膨胀。快速有效地进行语音资料的检索变得越来越重要。语音检索作为语音识别研究中的一个新领域,其目的是在大量语音资源中搜索与用户给出的查询词(Query)相关联的语音段。它通过事先为语音资源建立索引,从而实现了基于语义内容的快速搜索。本文的主要工作是研究汉语语音检索系统的性能优化策略。针对语音资料中大量出现的停用词问题,本文引入了停用词处理技术。停用词被定义为在文档中出现频率很高,但是对实际的检索没有帮助的词。引入与检索内容无关的停用词,对于信息相关性的计算精度必然产生负面影响,从而制约检索的精度。由于语音检索的特殊性,本文采用左右熵的方法来进行停用词的选择。给出了停用词的选择算法,通过比较左右熵方法和词频方法可以看出,左右熵方法得到的停用词效果更好,更能反映上下文的情况。应用所提出的方法,本文给出完整的语音检索在线部分处理过程,包括利用音节Lattice建立索引,利用向量空间模型进行查询词和语音文档之间相似度的计算,最后根据相似度对查询结果排序,从而给出用户的查询结果。每个语音文档都由一个特征向量来表示,特征向量中的每个分量从语音文档对应的lattice中提取。通过搜索每个lattice,从中提取所有音节和相邻音节对的声学分来形成语音文档的特征向量。由于语音识别的不准确性以及汉语中一音多字现象的存在,本文提出对特征向量中出现的停用词音节序列加入惩罚因子,以降低其在特征向量中的权重。通过试验比较,惩罚因子取值为0.1。在检索的过程中,通过计算查询词和文档特征向量的余弦相似度来进行相关性的评定。通过实验分析系统的检索性能可以看出,经过停用词处理对系统性能得到了较好的改进。本文主要贡献:提出了基于左右熵方法的停用词选择算法,比较好地实现了在音节Lattice中自动选择停用词。提出了基于停用词惩罚方法的向量空间模型改进方法,使得检索性能有较大改善。

其他文献

几种竞争神经网络的改进及其在模式分类中的应用——以SOM和ART为例

神经网络的学习方式可分为两种，一种是有监督的学习，这时利用给定的训练样本进行分类或模仿：另一种是非监督的学习，这时只规定学习方式或某些规则，而具体的学习内容随系统所处的环

学位

神经网络环境特征监督学习灰度图像

基于SIP协议的网络架构及实现研究

基于SIP协议的服务可以用在市话和长途电话技术、在线消息和即时消息、I.Centrex/Hoste.PBX、语音短信、一键通话、多媒体会议等。SIP的提出和发展为IP电话技术的成熟和演进

学位

SIP协议网络架构P2P系统框架可绕性

活的单支Petri网的可达性判定方法及改进的可覆盖性树的构造算法

Petri网是一种系统描述和分析的工具。在Petri网的诸多性质研究中，可达性研究大概是最基本的一个动态性质研究。可达性在一定意义上可说是研究Petri网其他动态性质的基石，许多

学位

Petri网可达性判定可覆盖性图系统描述

时间依赖中国邮路问题的智能算法研究

中国邮路问题是管梅谷教授在1960年第一次提出来的。它描述了一个极具现实意义的问题:一个邮递员负责一个地区的信件投递,每天从邮局出发,走遍该地区的所有街道再返回邮局,问

学位

时间依赖网络中国邮路问题模拟退火遗传算法

基于Snort的网络入侵检测系统研究

本文提出了一种基于Snort(sniffer and more)的网络入侵检测系统，Snort是一个强大的轻量级的网络入侵检测系统，它具有实时数据流量分析和日志IP网络数据包的能力，能够进行协议分

学位

入侵检测Snort网络防火墙互连网络黑客入侵数据交换

基于隐私保护的分布式序列模式挖掘算法研究

随着网络的迅速发展,行业应用中产生的大量数据可能分布存储在通过网络连接的多个站点上。在对这些数据进行序列模式挖掘时,一些特殊应用要求不能对这些数据进行传输,原有的

学位

数据挖掘分布式序列模式隐私保护敏感知识

基于云端的构件检索技术研究

软件复用是解决软件危机的有效途径，而软件构件开发是实现软件复用的关键因素。在基于构件的软件开发中构件的分类和检索是实现软件复用的基础。基于构件的软件开发能够有效降

学位

构件分类构件检索亲和度路径匹配软件复用

多源图像融合方法及应用研究

图像融合技术作为多传感器信息融合的一个非常重要的分支--可视信息的融合,近年来,引起了世界范围内的广泛关注和研究热潮。图像融合就是对多个传感器采集到的关于同一场景或

学位

图像融合小波变换遗传算法模糊积分目标检测

多维传输函数技术研究及医学图像体视化系统设计与实现

医学图像可视化是当前一个研究热点问题,它将计算机图形学和图像处理技术运用在生物医学工程中,在医学诊断、手术规划及模拟仿真等都方面都有着广泛的应用。体绘制技术已经成

学位

体绘制多维传输函数LH值局部传输函数纹理硬件加速

三维装载的配送车辆调度算法研究

电子商务的飞速发展和人们外出购物时间的急剧减少，网上购物逐渐成为了一种趋势，越来越多的人开始认识、了解以及使用网络来进行所需物品的采购，这为我国物流产业的长足发展提供

学位

路径规划人工蜂群算法电子商务配送车辆调度算法

基于停用词处理的汉语语音检索方法

其他学术论文