基于向量空间模型的主题爬虫算法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户：ly110

【摘要】

：

时下,网络作为主导信息来源手段对人们的生产生活方式带来了迅速的转变,信息检索的便利性不言而喻。但是,传统的搜索引擎无法使用户在特定时间内得到有效的检索结果。基于此,

【作者】

：

姚荣宝

【机构】

：

山东师范大学

【出处】

：

山东师范大学

【发表日期】

：

2016年期

【关键词】

：

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

时下,网络作为主导信息来源手段对人们的生产生活方式带来了迅速的转变,信息检索的便利性不言而喻。但是,传统的搜索引擎无法使用户在特定时间内得到有效的检索结果。基于此,主题搜索引擎应运而生,终将成为搜索引擎发展趋势之一。主题搜索引擎是在传统搜索引擎的基础上增加了新的搜索引擎服务模式。主题搜索引擎中的爬虫称为主题爬虫。主题爬虫在传统网络爬虫的功能上添加了主题确立和相关性评价两个模块。主题爬虫注重爬行的深度,它的目标是保证尽可能多的爬行、下载与主题相关的网页。它主要需要解决主题确立、相关性分析评价以及搜索算法三个核心问题。本文对主题定义与描述、相关性评价和搜索算法等网络爬虫关键技术做了详细阐述。深入研究了基于向量空间模型(Vector Space Model,VSM)的主题爬虫相关度计算以及搜索算法。通过对传统模型主题爬虫算法的研究分析,提出了一种基于向量空间模型的多粒度SH主题爬虫算法。论文主要工作如下:1.传统的向量空间模型用特征项表示关键词,用TF-IDF方法计算关键词的权重,即通过计算关键词在文本中出现的次数衡量相关度。通过此方法计算结果仅仅是对文本词语的模糊匹配,忽略了Web页面本身结构特点,准确性较差。针对传统TF-IDF计算方法存在的缺陷,对页面中的特征项做了详细研究分析。首先,考虑特征项在相同文本的不同位置和在不同文本的位置权重加入语义分析,很好的区分了他们的分配权值;然后,利用改进的TF-IDF公式计算特征项权重,改进后的计算方法弥补了传统公式中将所有位置一视同仁的弊端;最后,将上述公式计算的权重结果代入向量空间模型中对文本相似度分析计算。与传统模型下的算法相比,改进后的算法更能准确的获取主题相关页面。2.分析Shark-search(鲨鱼算法)和HITS(Hyperlink-Induced Topic Search)算法中的优点与不足。针对Shark-search算法中的噪音链接、广告链接的缺陷和HITS算法中的主题漂移现象(与查询不太相关的普通页面在查询排序中比较靠前的现象称为主题漂移),深入分析Web页面结构。首先,对给定Web页面进行分块处理。处理方法采用VIPS(vision-based page segmentation)算法。VIPS算法的思想:从用户角度观察Web页面,不去详细分析Web页面的内部具体结构,而是把页面中一个语义块作为一个个单一对象研究;基于语义块检测出分隔条,依据分隔条Web页面内部结构被重新构建。然后,采用多粒度Shark-search算法,同时与依赖查询的HITS算法结合进行相关链接的预测。这样,既弥补了Shark-search算法缺乏“全局性”的问题,降低噪音链接干扰,还消除了HITS算法中“主题漂移”现象。3.查全率和查准率是衡量主题爬虫性能优劣的常用指标。本文通过查准率和模拟查全率作为实验的评估指标,比较论文中提出的基于向量空间模型的多粒度SH主题爬虫算法与其它爬虫算法在抓取质量方面的优劣。通过对实验数据的分析和统计,得出本文提出的新型主题爬行算法在爬行质量方面,效果更好。

其他文献

基于时间序列分析的GPR数据特征提取与模式分类研究

探地雷达(Ground Penetrating Radar,GPR)作为一种高效率、结果直观的浅层物理探测技术,以其无损、高分辨的特点,被广泛应用于环境工程、地质勘探等多个领域。由于地质环境复

学位

GPR数据时间序列特征提取最近邻分类

煤矿井下供电网单相接地故障监控系统的研究

我国的煤矿井下供电网大多数采用了小电流接地系统,该系统发生单相接地故障的概率很高。对于井下特殊的工作环境,如果发生了单相接地故障,必须及时地处理,避免故障扩大,影响整个供电系统的安全运行。长期以来,尽管很多学者进行了大量的研究,但是选线准确率达到100%的选线装置还不存在,并且适用于煤矿井下的小电流选线装置几乎没有,因此设计一套经济实用、符合煤矿特殊的供电环境并能快速准确地实现故障选线的装置,具有

学位

单相接地故障供电网DSP数字信号处理

SOAP消息处理性能优化的研究与实现

随着互联网的快速发展和广泛应用,Web Service已经成为网格和分布式计算基础结构和应用构建的标准,基于Web Service的分布式计算模式也逐渐成为应用模式和软件相关技术发展的

学位

Web服务SOAP消息处理性能序列化反序列化

面向主题的Web文档自动文摘生成方法研究

随着互联网的飞速发展,信息爆炸已经成为一个很严峻的问题。面对互联网中海量的信息,想要快速有效地获取所需信息变得越来越困难。如何为用户提供简洁有效的信息、满足用户个

学位

多文档文摘Web文档句子分类依存关系句子排序

四、六级考试英语作文自动评分研究

全国大学生英语四六级网考在教育部的推进下渐渐成形，四六级作文的自动评分成为一个随之出现的新课题。以往四六级作文阅卷采用人工评分，工作量很大，且很难保证评分的准确性和客

学位

向量空间模型潜在语义分析K近邻作文内容自然语言处理机器学习自动评分

基于风险评估的信任管理模型研究及应用

随着计算机网络和分布式系统的快速发展和普遍应用,应用系统的形态正从面向封闭的、熟识用户群体的、相对静态的服务模式向开放的、公共可访问的、动态协作的服务模式转变。

学位

风险评估信任度信任模型信任管理

基于灵敏性分析的贝叶斯网络扰动学习方法研究

利用数据发现结构模型中的因果关系是机器学习领域中的一个重要研究内容。当前的结构模型因果发现主要有两类,一种是直接利用观察数据的被动学习方法,另一种是结合观察数据和

学位

贝叶斯网络灵敏性分析扰动学习被动学习因果关系

数据挖掘技术在教务管理中的应用

随着国家教育战略的推进和社会经济的迅猛发展,对各类应用型人才的需求量也愈来愈大,广播电视大学开展的现代远程开放教育的办学模式已愈来愈为社会各界广泛接受。近年来,各

学位

流失率决策树C4.5算法

基于本体的主动服装构件库及构件排序研究

随着Internet的不断发展和企业电子商务水平的逐渐提高，各种组织和商业实体正在逐步地将其业务模式转向Internet，Internet上的应用越来越多。Web服务通过借鉴和利用现有的Inter

学位

Web服务主动服务构件描述构件排序计算模式本体知识库

网络读物元数据垂直搜索引擎研究与实现

随着互联网上信息的快速增长，搜索引擎在用户获取信息过程中起着越来越重要的作用。通用搜索引擎在用户需求的驱动下，技术上取得巨大的进步，商业上也获得了巨大的成功。然而在互

学位

网络读物元数据垂直搜索引擎Lucene开源工具J2EE框架结果排序算法

基于向量空间模型的主题爬虫算法研究

其他学术论文