垂直搜索引擎中主题网络爬虫算法研究

被引量 : 0次 | 上传用户:cherrychenghui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网络技术的迅猛发展,网络资源呈指数形式增长,面向整个网络信息的通用搜索引擎已经不能满足不同领域的用户精确的检索需求,在这种背景下,垂直搜索引擎应运而生。主题网络爬虫是垂直搜索引擎的核心部分,其爬行质量和效率直接决定了垂直搜索引擎的性能。与通用网络爬虫不同的是,主题网络爬虫只抓取与特定主题相关的网页同时过滤无关网页,具有专业,精确,深入的特点。传统的主题网络爬虫通过分析网页的全部内容判定候选链接的相关性,现今的网页内容往往包含多个不同的主题,对网页的全部内容进行计算很可能由于网页中的噪音而影响结果的判定。本文对主题网络爬虫的相关性判定算法和搜索策略进行了研究,针对传统的主题网络爬虫的不足提出一种基于候选链接主题边缘文本的主题爬虫,本文的主要研究工作如下:首先,利用杜威十进分类法的特性绘制二维坐标提取候选链接主题边缘文本。杜威十进分类法是一种层次分类法,由于词的多义性,每个主题关键词对应唯一或者多个的杜威分类号码,根据分类号码可以判定关键词是否是同一主题或者相近主题。候选链接主题边缘文本是一组与锚文本关键词词义相近的关键词,主要包括锚文本关键词和网页正文关键词两个部分。该主题爬虫利用锚文本和与锚文本主题词义相近网页正文判定候选链接的相关性,避免噪音对判定结果的影响。其次,构建朴素贝叶斯文本文本分类器分析候选链接主题边缘文本,指导主题网络爬虫爬行。朴素贝叶斯分类算法是目前为止文本分类中最有效的分类算法。锚文本关键词更能代表候选链接的主题含义,对锚文本关键词加权,突出锚文本关键词在相关性判定时的重要性。最后,查准率和模拟查全率作为实验的评估指标,比较本文提出的主题网络爬虫与其他爬虫算法在抓取质量方面的优劣。统计和分析实验所得的数据,实验结果表明本文提出的主题网络爬虫在爬行质量方面,效果更好。
其他文献
Kolonodale矿床是东南亚红土镍矿带上一处典型矿床,位于印度尼西亚苏拉威西岛东部。矿床产自富镁超基性岩红土风化壳,矿化剖面自上而下出现红土层→腐岩层→基岩层垂向分带。
目的:浅析慢性阻塞性肺疾病合并肺部感染患者治疗中盐酸氨溴索的应用效果。方法:此次100例试验研究对象全是笔者所在医院2016年6月-2018年11月收治的慢性阻塞性肺疾病合并肺
中国已经进入全民医保的时代,但医疗保障体系呈现碎片化的特征,其内部的若干制度安排之间出现了不协调。中国医疗保障体系亟待进一步转型,转型的重点和方向是将基本医疗保障
公共政策是政府输出的主要产品,政府通过政策来实现其对社会公共事务的管理,但政策从制定到预期目标的实现,还必须经过一个复杂的政策执行过程。在执行过程中由于多方面的原
糙米是去除稻壳后,仍含有胚、糊粉层和皮层的物质,在糙米发芽的过程中添加亚硒酸钠溶液,使糙米在发芽的同时进行富硒,即可得到所得到富硒发芽糙米,与糙米相比,其营养价值高,尤其是富
为防止高温材料的腐蚀,需要通过氦气净化系统对气冷堆回路中各种气体杂质含量进行控制。本文基于高温氧化铜床、室温分子筛床和深冷活性炭床的氧化以及吸附成熟技术,通过比较
本文分析了水工隧洞塌方的原因,对塌方进行了分类;对塌方预防和处理措施作了详细论述。针对隧洞开挖阶段发生的塌方问题。提出了“超前临时支撑法”的处理措施,且对该施工处理技
白塞病(BD)是一种原因不明的血管炎性疾病,呈慢性进展和反复发作的多系统受累,长期以来其发病机制一直是人们探讨的课题,目前已发现BD的发病可能与病毒、链球菌感染以及自身
福建省闽南地区的漆线雕,在长达几个世纪的发展中,形成了自己独特的装饰风格与特色。然而有关该工艺的归属界定问题,在学术界一直存在争议。这篇文章从材质应用、形式特征、
当前,在我国区域之间、城乡之间和人群之间较为普遍存在的基本公共服务差异中,区域非均衡现象尤为突出。党在十八大报告中着重提出要“推进基本公共服务均等化”,报告认为推进基