基于Web挖掘的主题搜索引擎网页抓取策略的研究

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户：Q672855312

【摘要】

：

因特网的快速发展带动了时代的变迁。Web资源中蕴含着大量有价值的信息,作为一种新的资源,已经变得越来越重要。Web挖掘研究的主要任务就是如何从这么多的Web信息中高效地获

【作者】

：

金斯特

【机构】

：

浙江工业大学

【出处】

：

浙江工业大学

【发表日期】

：

2014年期

【关键词】

：

Web挖掘主题搜索引擎 Best-First算法非贪婪策略

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

因特网的快速发展带动了时代的变迁。Web资源中蕴含着大量有价值的信息,作为一种新的资源,已经变得越来越重要。Web挖掘研究的主要任务就是如何从这么多的Web信息中高效地获取所需知识。然而,传统的通用搜索引擎对整个互联网缺乏针对性,搜索会造成大量无关的链接和信息,使得所得的结果效用低下。在这种情况下,面向特定领域的主题搜索引擎便应运而生,它很好地解决了通用搜索引擎存在的弊端,其核心就是主题网页抓取技术。对于该技术的研究已经成为了当前的热点和发展趋势。本文首先简单介绍了Web挖掘技术和搜索引擎技术的研究背景及国内外发展现状,分析了两者之间存在的共同点,并为这两者技术上的相互结合做了一定的可行性分析。然后介绍了主题搜索引擎的发展状况和重要作用,并主要以主题搜索引擎的主题网页抓取策略作为研究内容,把提高主题网页抓取的查全率和查准率作为出发点,详细分析了现有的主题网页抓取方法及其优缺点。接着从主题搜索爬虫的Best-First搜索算法中所存在的缺点着手,结合非贪婪策略等方法对算法进行了进一步优化,并用实验证明了新算法的优异性；最后设计并实现了一个主题Web挖掘系统原型,给出主题网络爬虫类的构成,设定的队列,数据库的设计等,并对整个系统性能进行了测试。

其他文献

中国科幻小说研究现状浅析

摘要：当前，中国科幻文学在世界文化视野中得到越来越多的关注，但中国科幻小说学术研究远远落后于其他文学形式的研究。本文梳理2010年-2017年间8年的硕博论文中以中国科幻小说为研究对象的硕博论文数量与占比，以及与当前在国内外知名科幻期刊发表的中国科幻小说数量对比情况，浅析中国科幻小说学术研究的必要性。　　关键词：中国；科幻小说；研究；硕博论文　　作者简介：周兴阳（1992-），女，汉，安徽合肥人

期刊

中国科幻小说研究硕博论文

基于sEMG与ECG的人工物料搬运时间与负荷对作业疲劳的影响研究

随着社会整体经济水平不断提升,生活条件不断改善与医疗技术不断提高,人们对职业性生理、心理健康的关注和重视程度也随之提高。学术界和医学界通过探索、识别和干预作业过程中的疲劳风险因素,从而降低职业疲劳对作业者、企业和社会带来的负面影响。然而,受区域经济水平、地理位置、文化程度和社会地位等诸多因素的影响,人工搬运作业在生产生活中仍然非常常见;并且该作业往往具有作业时间长、负荷重、环境差等特点,对搬运行业

学位

人工物料搬运作业时间作业疲劳作业负荷表面肌电信号心电信号

基于Web挖掘的主题搜索引擎网页抓取策略的研究

其他学术论文