论文部分内容阅读
近年来,互联网搜索引擎得到迅猛发展和广泛普及,但大粒度输入的搜索需求被各大搜索引擎所忽视;而且,尽管用户通过搜索引擎能够快速检索出大量文档,但返回的文档中往往只有少部分段落内容与用户需求直接相关。因此,研究一个既能满足大粒度输入的搜索需求,又能得到与输入段落密切相关的段落检索系统,对于解决目前搜索引擎存在的难以满足大粒度搜索和搜索精确度不足的问题很有帮助。而在目前段落检索领域的研究中,仅仅将段落检索作为自动问答系统的一个组成部分进行研究,并没有针对大粒度的输入搜索相关段落的需求开发出相应的开放的搜索引擎,为了解决这个问题,笔者开发出了海天园段落检索系统并且对其中的相关算法进行了研究。在实现段落检索的功能方面(大粒度的段落输入,搜索到相似段落),文中设计了如下方法:首先在索引阶段进行基于窗口的分段,然后将输入段落表示为有序关键词序列,用基于关键词交集的搜索方法得到相关段落,最后对得到的段落进行段落相似度计算和排序。其中在分段方面,使用了高效的基于窗口的不重叠分段算法,与先分段再搜索的段落检索策略,能够缩短搜索时间保证搜索的效率;对于输入段落,系统采用了有序关键词序列的表示方法和准确的关键词提取算法,该方法能够有效的将大粒度的输入准确的表示为可搜索的形式;得到相关段落后的排序,文中比较多种段落相似度计算方法后,采用了SiteQ算法(一种基于查询词密度的段落相似度计算算法)并对其进行了改进,能够在查询词间距离的层面更好的比较两个段落的相似程度。系统使用的数据是海天园金融爬虫每天实时爬取的各大金融网站的网页。为了验证段落检索系统的搜索效果,文中对于每一个过程分别用不同验证方法进行验证。首先关于提取关键词的算法,将系统提取的关键词与人工提取的进行比较,实验结果表明在字数100字以内提取10个关键词,至少抽取7个正确的关键词的准确率达到85%。对SiteQ算法的改进效果,文中使用MRR(平均排序倒数)进行评估:将改进后的SiteQ算法分别与MITRE(词重叠算法)算法和改进前的SiteQ算法进行实验比较,在输入段落100字范围内,改进后SiteQ算法的MRR值比MITRE至少大0.007,改进后SiteQ算法的MRR值比改进前至少大0.004,证明改进后SiteQ算法的排序效果优于改进前,并且优于MITRE算法。最后评测系统的性能,以从网页中摘抄段落,输入系统以搜索到源段落为目的,实验结果发现在输入段落字数达到60字以上时,平均召回率在93%以上,平均准确率在27%以上,能够满足大粒度输入段落,搜索出源段落的需求。同时,将段落检索应用到自动问答,运用了同义词扩展、问题类型识别,并针对数量类和是非类问题进行了答案抽取。本文的研究应用到了海天园段落检索系统和海天园自动问答系统。