段落检索系统及其应用的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wmg0632
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网搜索引擎得到迅猛发展和广泛普及,但大粒度输入的搜索需求被各大搜索引擎所忽视;而且,尽管用户通过搜索引擎能够快速检索出大量文档,但返回的文档中往往只有少部分段落内容与用户需求直接相关。因此,研究一个既能满足大粒度输入的搜索需求,又能得到与输入段落密切相关的段落检索系统,对于解决目前搜索引擎存在的难以满足大粒度搜索和搜索精确度不足的问题很有帮助。而在目前段落检索领域的研究中,仅仅将段落检索作为自动问答系统的一个组成部分进行研究,并没有针对大粒度的输入搜索相关段落的需求开发出相应的开放的搜索引擎,为了解决这个问题,笔者开发出了海天园段落检索系统并且对其中的相关算法进行了研究。在实现段落检索的功能方面(大粒度的段落输入,搜索到相似段落),文中设计了如下方法:首先在索引阶段进行基于窗口的分段,然后将输入段落表示为有序关键词序列,用基于关键词交集的搜索方法得到相关段落,最后对得到的段落进行段落相似度计算和排序。其中在分段方面,使用了高效的基于窗口的不重叠分段算法,与先分段再搜索的段落检索策略,能够缩短搜索时间保证搜索的效率;对于输入段落,系统采用了有序关键词序列的表示方法和准确的关键词提取算法,该方法能够有效的将大粒度的输入准确的表示为可搜索的形式;得到相关段落后的排序,文中比较多种段落相似度计算方法后,采用了SiteQ算法(一种基于查询词密度的段落相似度计算算法)并对其进行了改进,能够在查询词间距离的层面更好的比较两个段落的相似程度。系统使用的数据是海天园金融爬虫每天实时爬取的各大金融网站的网页。为了验证段落检索系统的搜索效果,文中对于每一个过程分别用不同验证方法进行验证。首先关于提取关键词的算法,将系统提取的关键词与人工提取的进行比较,实验结果表明在字数100字以内提取10个关键词,至少抽取7个正确的关键词的准确率达到85%。对SiteQ算法的改进效果,文中使用MRR(平均排序倒数)进行评估:将改进后的SiteQ算法分别与MITRE(词重叠算法)算法和改进前的SiteQ算法进行实验比较,在输入段落100字范围内,改进后SiteQ算法的MRR值比MITRE至少大0.007,改进后SiteQ算法的MRR值比改进前至少大0.004,证明改进后SiteQ算法的排序效果优于改进前,并且优于MITRE算法。最后评测系统的性能,以从网页中摘抄段落,输入系统以搜索到源段落为目的,实验结果发现在输入段落字数达到60字以上时,平均召回率在93%以上,平均准确率在27%以上,能够满足大粒度输入段落,搜索出源段落的需求。同时,将段落检索应用到自动问答,运用了同义词扩展、问题类型识别,并针对数量类和是非类问题进行了答案抽取。本文的研究应用到了海天园段落检索系统和海天园自动问答系统。
其他文献
自然语言中普遍存在着同义词和多义词现象,致使人们很难通过以词形匹配的关键词检索寻找到真正需要的网络资源。潜在语义索引通过奇异值分解将同义词映射到潜在语义空间的同
近年来,对自然景物中人造目标的识别与检测引起了广大学者越来越广泛的关注,无论在军事领域还是民用领域都具有非常重要的应用价值。桥梁作为人造目标的典型物之一,对其的识
面向对象数据模型具有强大的语义表达能力,能够精确地描述数据、数据之间的联系和数据完整性约束,使得对象模型在数据库和数据集成中的应用越来越广泛。由于构筑在对象模型基
在经济社会飞速发展的今天,天气预报的重要性日益彰显,涉及到社会生产、人民生活等诸多领域的切实利益。同时,随着计算机软件和硬件技术的周期性飞跃,海量实时监测资料的计算
进入21世纪以来,定位技术越来越被人们熟知和应用。定位技术有室外定位技术和室内定位技术两种。目前室外定位应用广泛、技术成熟,比如美国的GPS全球定位系统和我国北斗定位
随着计算机和互联网技术的不断发展及在各行业中的广泛使用,人们积累的各种数据成爆炸式增长,如何有效利用这些数据,是目前所面临的重大挑战。而企业往往也需要从大量的数据
图像匹配是图像处理领域的基础问题,它是将不同时间,或不同视角下获得的同一场景的两幅或是多幅图像进行匹配。图像匹配技术广泛应用在导航定位、目标识别、运动分析、立体视
嵌入式视频监控越来越普及,本文研究的则是基于现场图片的远程监测。虽然与视频相比,图片的信息量不够丰富,但该方案节省流量、降低开销、优化网络环境,更重要的是这样的装置
一直以来,安全问题都是电子商务难以解决的问题。在解决电子商务安全问题中,普遍采用的是利用加入密码对电子商务中的信息进行加密。但是,由于加入密码后,信息转变成密文在网络中
随着多媒体技术的发展和Internet的普及,数字产品的信息安全和版权保护问题日益突出。信息隐藏技术正是在这种情况下迅速发展的。而数字水印作为信息隐藏技术的一个重要分支,