基于Nutch的网络爬虫及主题搜索引擎系统的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:yangtianmei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网技术的蓬勃发展及Web2.0技术的兴起,网络中存储的信息量呈现出爆炸式的增长,搜索引擎在互联网中发挥了越来越重要的作用。网络信息检索新领域新的研究热点之一就是面向主题的网络爬虫与搜索引擎技术。传统的搜索引擎对网页的抓取是任意的,不作任何判断,而主题式搜索引擎则是带有目的性的去查询,仅仅返回某一个领域内的用户所需要的内容。使用特定主题的垂直搜索引擎,能够提高查询的精度、深度和广度,从而大大提高了人们的工作和生活效率。Nutch是一个开源的网络爬虫系统,它是以Lucene为基础,开发了索引和检索功能,尽力为用户提供更好的检索结果。通过与Solr索引服务器结合,从而具有高度标准模块的框架。虽然Nutch集成了各种功能的插件,但是缺乏对页面中脚本内容的解析和主题相关性的判断,可能会造成网页动态内容的缺失及索引文件的冗余,影响最终的检索结果。本文基于开源搜索引擎框架Nutch设计并实现了一个主题式搜索引擎。主要工作包括以下几个方面:1.对主题搜索引擎的相关技术和开源网络爬虫Nutch的工作原理及流程进行研究。介绍分析了主题搜索引擎的重要构成模块及中文分词技术。2.对传统网络爬虫不能爬取网页中的动态链接及内容的缺陷进行分析,利用Nutch的插件机制设计并实现了一个JS解析插件。该插件作用于爬虫的采集页面阶段,通过解析网页中的脚本内容,利用正则表达式来提取网页中的动态链接。并且针对Ajax请求,利用Htmlunit来完成动态页面的静态化,从而提取到网页中的动态内容。3.基于Nutch的插件机制,实现一个主题过滤模块,主要采用的思想是:在基于Mahout的贝叶斯分类算法的基础上,利用训练文档生成贝叶斯模型,将改进后的爬虫爬取到的网页在被建立索引之前进行主题判别,如果属于预先定义的主题,则保存该网页,否则丢弃,最后实现了自己的基于贝叶斯分类器的主题爬虫。4.引用基于词典的IKAnalyzer,利用归一化处理的双字耦合度思想对Nutch的中文分词其进行了进行了改进以及测试,进而改善了分词效果。5.设计并实现了基于Nutch网络爬虫及主题搜索引擎系统,并且针对该系统中爬虫的性能和查准率进行了相关实验。实验表明:本文设计实现的系统是有效的,虽然由于增加了 JS解析功能和主题过滤功能降低了爬取效率,但是相较于开源Nutch系统和通用搜索引擎百度,该系统的查准率大大提高了。
其他文献
<正>精液多倍稀释配种技术是在原精液人工授精技术的基础上,选用以柠檬酸钠、葡萄糖、卵黄为主的稀释液进行稀释后输精。精液稀释可以提高精液使用效率,提高每次配种头数;稀
本文采用正交试验设计的方法,对猪胆汁钙盐法生产胆红素的工艺进行了研究,使胆红素的收率比原生产工艺增加了约0.015%。本文的工艺方法省去了乙醇沉降过程,节约了原辅材料,缩
通过研究四川电网"十二五"期间输变电工程的造价统计数据,通过对比估算造价、概算造价与预算造价,归纳总结出输变电工程的整体造价控制水平与造价特点,然后应用SPSS软件对影
目的:观察加味一贯煎治疗不宁腿综合征的疗效。方法:将62例不宁腿综合征患者随机分成两组,治疗组32例给予加味一贯煎口服,对照组30例给予左旋多巴口服,两组均治疗8周后评价疗
本文针对春晚语言类节目的社会功能进行分析,指出其对年度流行语、对地域方言、对地方艺术的影响以及它们之间的相互联系。
目的探讨血浆脑钠肽(BNP)、N-末端B型脑钠肽前体(NT-proBNP)在心力衰竭患者中的应用价值。方法选择住院心脏病患者99例,采用美国纽约心脏学会(NYHA)标NT-proBNP、心肌肌钙蛋
<正>从高中最核心的数学知识和方法出发,探讨数学智慧.你是否有过这样的经历:走楼梯时忽然记不清自己身处4楼还是5楼,乍一看分不清手中有5颗还是6颗巧克力豆……心理学研究表
随着我国经济的不断发展进步,我国的企业也不断的增加,在国民经济当中,中小企业在其中占有着至关重要的位置。而一个企业要想获得长久的发展,文化的建设是非常重要的内容,不
本文介绍了当代冲压翼伞的结构、外形特点及工作原理,从低速翼型的气动特性入手,重点从理论上分析了“椭圆”外形及弧形结构对翼伞性能的影响,对冲压翼伞的设计具有一定的指导意