论文部分内容阅读
互联网技术的飞速发展使得互联网早已经成为了全球信息传播的重要平台。截至2015年,中国的网民数量达到了6.68亿,网站数量达到了413万家,这些网站中涵盖了几乎所有领域。传统的餐饮业在互联网的大潮中同样面临着一个巨大的挑战。人们的饮食习惯也在逐渐向着随时随地送餐到户的方向发展。特别是一些在校学生,获取资讯的方法越来越依靠互联网。虽然我们国家的网上订餐业务目前还处在一种刚刚起步摸索的时期,与国外相比还有一些差距,但是它的研究前景却是十分可观的。然而如何让用户在海量数据里面快速、精准地找到自己所需要的餐饮信息已经成为亟待解决的问题之一,这也就是本论文的目的所在。本文通过对网络爬虫策略的研究,提出了一种改进的多策略融合的网络爬虫。当前的网络爬虫策略大体分为两种,一种是基于URL链接结构的爬虫策略,另一种则是基于页面内容的爬虫策略。前一种策略只是考虑了页面间的关系,而没有考虑与搜索主题的相关度,而后一种策略则恰恰相反。本文根据这两种策略提出了一种多策略融合的网络爬虫,改进后的网络爬虫具有更高的查准率。本文分析了Lucene自带的搜索结果评分机制并指出了其在本系统中的不足,然后提出了一种改进的搜索结果评分机制。该评分机制中,主要考虑了一些实际需求,比如月销售量、餐厅评分和是否卖完等因素。这个改进的评分机制是在Lucene自带的评分结果上计算出来,如果月销售量大、餐厅评分高和没有卖完的搜索结果评分会相应高一些,也就是最后的结果排序会比较靠前。这种评分机制不仅考虑了页面的相关度还考虑了系统中的具体参数,这也就更加的符合用户的实际需求。本文根据前面的研究分析与改进,设计和实现了一个面向网上订餐的垂直搜索引擎,并进行了一系列的功能测试。测试结果表明改进的爬虫具有更高的查准率;改进后的评分机制更加的符合本系统的实际需求,能够更好地提升用户的体验值;实现的搜索引擎具有更加专业的搜索结果。