Web查询分类方法的改进

来源 :上海交通大学 | 被引量 : 2次 | 上传用户:sjtwwf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网的逐渐普及,Web上各类搜索引擎得到迅猛的发展,可以说如今搜索引擎已经成为了人们生活中不可或缺的一个信息获取工具。人们通过搜索引擎来获取信息的过程是用户先向搜索引擎提交Web查询请求,然后搜索引擎根据该查询请求返回相关结果。这两个环节连接的纽带就是用户提交的Web查询请求,对于搜索引擎来讲,用户的信息需求是完全通过用户递交的查询请求来体现的,所以对Web查询进行准确分析就具有了很重要的意义。Web查询话题分类就是Web查询分析的一个重要方面,最近几年得到了越来越多的关注。如果能较好的判断用户的查询涉及话题的类别,搜索引擎就可以只向用户提供相关话题类别的网页信息,这样能更好的满足用户的信息需求。特别是有些搜索引擎实际上是通过在后台调用不同的垂直搜索引擎来提供搜索结果,如果能事先知道用户Web查询的话题类别的话,便可以很方便的调用相关的垂直搜索引擎来提供搜索结果。Web查询虽然也可以归结为一种文本,但是却与传统文本有着很大的不同之处,比如Web查询通常都很短且具有歧义性,因此如果直接利用针对传统长文本的分类方法来对Web查询这类短文本分类的话,将很难取得理想的效果。虽然目前学术界针对Web查询自身的特点已经提出了一些相关的应对方法,但是仍然有很大的改进空间。在本文中,我们在回顾传统文本分类的相关概念以及目前学术界关于Web查询分类的相关工作的基础上,从如下两方面对Web查询分类方法进行了改进:(1)我们提出一种通过语义相似度计算,利用WordNet中的概念所带的注释对Web查询词进行扩展的方法,这样我们可以得到关于Web查询关键词的更加丰富的信息,然后再利用传统的文本分类方法对扩展后的Web查询进行话题分类。这种方法的优势是利用了外部的权威知识库扩充了原本较少的Web查询信息。(2)通过显式语义分析方法将Web查询映射到Wikipedia概念空间中,然后在该概念空间中利用类似于传统文本分类的方法进行分类。由于Web查询通常所包含的词很少,所以这种方法避免了传统的词向量空间模型对词的过分依赖,而是充分挖掘Web查询有限的词语背后所代表的概念。对于以上两方面的改进,我们都利用Web查询分类的标准测试集进行了细致的实验和分析。结果表明在绝大多数情况下,以上两方面的改进确实能较好地提高Web查询分类的效果。
其他文献
近年来,各种银行中间代理业务得到了快速的发展。但现有C/S模式的银行代理软件,造成银行网络复杂化、系统效率低下、维护困难、系统的可扩展性差,本文基于银行业当前的处境和现状
现有课件制作工具功能设计得很全面,但制作、管理Web课件有一定困难.一方面,制作课件的工作往往是由群体成员互相协作,共同完成的,工作方式具有群体性、交互性、分布性与协作
机群系统中负载平衡的基本目标是通过任务调度,将运算均衡的分布到各个结点,从而提高系统资源的利用率.负载平衡策略直接影响到系统的并行性能.该文针对机群系统下的负载平衡
信息化社会中人们工作的特点是群体性、交互性、分布性和协作性.计算机支持的协同工作CSCW作为一种将人类合作行为模式与计算机技术融合为一体的新兴技术,正是适应了信息社会
该文通过研究IPv6的数据报文格式、双协议栈的安全性、防火墙的体系结构和过渡阶段演进技术这几方面,实现了一个基于IPv4/IPv6双协议栈的防火墙.这个防火墙由IPv4/IPv6包过滤
该文首先介绍了组件技术的重要理论基础,给出了组件的定义和设计构造组件的原则,以及组件的分类.之后详细阐述了在开发应用软件系统中采用组件技术的意义.研究组件技术的核心
该文主要研究了基于自适应投影算法的径向基函数网络、基于统计学习理论的支撑矢量机,及用以提高支撑矢量机分类速度和精度的中心距离比值法、修正核函数算法的机理,在对以上
SNMP和CMIP在传统的网络和系统管理上占据主导地位。然后,当需完成复杂的管理任务时,SNMP就会体现出其局限性。至于CMIP,由于其复杂性和标准化过程的缓慢,还没有与SNMP一样获得广
该文在从计算机系统结构的方法学出发进行研究,充分分析PC系统与嵌入式系统的共性与差异性后,基于一个嵌入式系统的目标理论模型,改造MINIX的内核源码,得到一个可用于嵌入式