垂直搜索引擎中主题爬行技术的研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:zjc823455041
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,传统的通用搜索引擎逐渐暴露出了覆盖率低、结果不准确等弊端。为了满足用户精确搜索的需求,垂直搜索引擎应运而生。它利用主题爬行技术来搜集Web中与某个领域(主题)相关的网页,并提供面向该领域的检索服务。无疑,主题爬行技术是垂直搜索引擎的核心部分,直接影响着垂直搜索引擎的性能。本文重点研究了主题描述、候选链接优先级的预测和自适应的爬行策略等主题爬行中的关键技术,主要内容包括:(1)提出了一种基于维基百科的主题描述方法。对主题进行清晰、准确的描述是主题爬行器的基础,主题的描述方式也决定了主题相关性的计算方式。现有的算法多基于特征集来描述主题,并通过特征词的机械匹配来计算主题的相关性,但它不仅忽视了特征词之间的语义关系,而且使得特征词分布过于稀疏,降低了对主题的描述性;也有一些方法引入了本体或语义词典来分析词语之间的语义关联,但现有的本体很少,而语义词典多存在着开放性差、词汇量有限、更新不及时的缺点。针对这些不足,本文将易于获取、更新及时、描述客观的维基百科作为背景知识,根据分类树来构建主题向量空间,并将主题描述文档映射成向量来描述主题,并且在相关性计算时引入了语义分析;同时,利用消歧参照表来解决词语映射到概念的过程中映射不符合实际或一词多义的问题。实验表明,该方法比传统方法在信息量总和及查准率上均有显著提高。(2)提出了一种基于网页分块的候选链接优先级的预测方法。候选链接的优先级预测决定了主题爬行的方向和结果,现有算法多根据页面内容、锚文本和锚文本上下文来预测候选链接的优先级,但页面中含有广告等噪音数据,锚文本上下文难以界定,锚文本包含的信息量也很有限。因此,本文首先基于深度优先遍历对网页进行分块,过滤掉了部分噪音节点,再从网页内容文本、块文本和锚文本三个方面综合预测候选链接的优先级。实验表明,引入网页分块有效改善了主题爬行的性能。(3)提出了基于信息增益和基于信息量总和比率的两种自适应方法。由于根据分类树的概念层次体系所获得的主题初始描述往往不够客观和准确,所以本文在每爬行一定数量的网页后,就根据两种自适应方法对已爬行的所有网页重新计算并自动反馈更新主题向量空间中每个概念的权重,从而完善主题描述。实验表明,两者都实现了主题的增量爬行;引入基于信息增益的自适应方法后爬取的网页比引入基于信息量总和比率的自适应方法后爬取的网页与主题更加相关,而基于信息量总和比率的自适应方法在总体上则比基于信息增益的自适应方法有更高的稳定性。最后,设计并实现了一个主题爬行的原型系统,并利用该原型系统进行了一系列实验,对本文中提出的方法进行验证分析。
其他文献
随着网络技术的不断发展和网络应用的持续推广,人们的生产和生活越来越依赖于计算机网络。然而网络却十分脆弱,经常会遭受部分人有意或者无意的破坏,导致网络安全问题层出不穷。
基于属性的密码体制是近几年来公钥密码学研究的新热点。在基于属性的密码体制中,通过一个属性集合来描述用户身份,简化了传统公钥密码中公钥管理和密钥托管问题,减轻了系统
蛋白质三级结构预测是生物信息学上的一大挑战,至今为止还没有好的方法能够获得期望的预测效果。利用从头预测方法对蛋白质三级结构进行预测的过程中,如果能够获取到蛋白质关联
进入二十一世纪以来,随着计算机的普及和互联网的快速发展,使得数字图像产品常常被非法复制和传播,版权保护成为一个亟待解决的问题。为打击盗版,一方面要通过立法来加强对违法犯
物理内存是现代计算机的核心硬件资源,同时也是短缺的资源。内存中越来越多的进程数量以及日益增长的应用程序的内存占用,都让物理内存利用率的优化永远不能停下脚步。在众多
虚拟环境中物体间的碰撞检测是虚拟现实、计算机动画、计算机图形学、计算机游戏等领域中一个极富挑战性的问题。其基本任务是确定两个或两个以上的模型之间是否发生接触或穿
小群体检测与跟踪是智能视频监控系统的关键技术,也是异常事件检测、行为理解、场景理解等更高层次的视觉任务的基础。小群体指的是在接近的运动区域中,若干具有动作一致性的
图像拼接技术(Image Mosaic)是将多幅相互间存在重叠部分的图像序列进行空间匹配对准,经重采样融合后形成一幅包含各图像序列信息的、宽视角场景的、完整的、高清晰的新图像。图
运动目标检测与跟踪的目的就是从连续的图像序列中提取出运动目标,并对所提取出的运动目标进行实时的跟踪。作为计算机图像处理与机器视觉领域的重要研究技术,涉及到了模式识别
压缩感知理论作为全新的采样理论,开辟了信息采样的新思路,有着广泛的应用前景和研究价值。压缩感知理论主要基于信号的稀疏化和可压缩性,其实现过程主要分为三个阶段:信号的稀疏