基于分布式采集策略的病虫害主题搜索引擎研究

来源 :东北林业大学 | 被引量 : 3次 | 上传用户:zhll0011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的迅猛发展推动了中国农林信息化由数字农林跨入智慧农林的新阶段。智慧农林更加注重各个环节、各种资源、各项业务的深度整合、集约共享和业务协同,通过智慧农林的实现,必将带来农林生产力的又一次深刻变革,农林信息化也将迎来一个新的大数据时代。如何更好地利用海量的农林信息资源,为我国的农林科学领域广大科研人员,教学工作者以及农民服务,就迫切需要对农林信息资源实现快速、准确、全面的检索。传统通用搜索引擎为所有用户提供统一接口,但是因为其庞大的数据量和宽泛的主题已不能满足农林领域用户对信息准确性、实时性和深度等多方面的个性化需求,因此研究基于农林主题的搜索引擎具有理论意义和应用价值。本文首先分析当前分布式爬虫系统模型,深入研究对等分布式爬虫系统中URL任务调度策略,针对一致性哈希任务调度策略存在的服务器节点在地址空间映射随机而引起抓取任务负载不均问题,提出了基于SP-cycle算法的节点地址空间分配策略,使得所有服务器节点分配的地址空间达到动态均等,改善了分布式爬虫系统负载均衡,达到在不影响爬虫系统运行的情况下解决服务点节点突发异常的问题。其次针对病虫害主题搜索引擎设计过程中的主题表示方法,文本分词方法以及主题爬虫的搜索策略等关键技术展开深入研究,通过建立大量领域页面库提取主题词、领域专家人工指定以及根据用户搜索日志定期更新的方式构建主题词典,并在此基础上设计了病虫害主题向量用于主题描述;采用IKAnalyzer智能分词模式结合扩展主题词典的方式进行文本分词,达到良好的主题文本分词效果;从链接结构和文本内容两方面考虑,设计了符合本课题的爬虫搜索策略,提高了主题信息的采集效率和采集质量。最终实现了一个基于植物病虫害主题的搜索引擎,并与通用搜索引擎比较检索结果,对实验结果进行分析评价,证明本系统具有明显的植物病虫害主题倾向性,查准率优于通用搜索引擎,具有一定的实用价值。
其他文献
目标的空间定位技术在地形勘探,机械制造,市政工程,飞行器模拟,甚至军事应用等领域发挥着重要作用。按照是否接触待测目标,可将坐标计算方法分为接触式与非接触式测量法,传统
深部岩石爆破工程,由于受自重应力和构造应力等的作用,岩体处于高地应力状态,在高地应力和爆炸冲击荷载的共同作用下,岩石中的应力分布、岩石的破裂破坏等都和一般工程爆破不同。为更好地研究深部岩石爆破时岩石的破坏特性以便提高爆破效果,通过理论分析与模型试验相结合的方法进行不同围压下爆炸应力波的传播规律的研究,设计制作边长为375mm的立方体混凝土试块,预埋应变砖,采用超动态应变测试系统进行距爆源不同距离点
网络的急剧膨胀和应用组合的不断扩充,已逐渐使得垂直封闭的传统网络架构难以追赶新业务的需求。软件定义网络(Software Defined Networking,SDN)作为一种控制面和数据面逻辑
随着无线通信技术的飞速发展,对于无线通信的服务需求也越来越高,以至于无线频谱资源日趋紧张。认知无线电技术的提出,有效的解决了这一问题,得到了学术界的广泛关注。在认知
随着互联网和软件技术的快速发展,计算机技术不仅仅走进我们生活的方方面面,也悄然地改变了我们的生活方式。随着各式各样的在线服务平台逐渐覆盖我们生活的各个领域,我们的
随着互联网的发展,越来越多的消费者选择在电子商务网站上购买产品或服务。由于电子商务缺乏实体体验,为了做出正确的购买决定,消费者往往通过参考网络口碑来制定购买决策,因
本文分为五部分,第一章为文献综述,中国是一个情理社会,对中国人“关系”的研究自改革开放以来迅速兴起,国内外学者从各种角度对此进行了理论的阐述和方法论的探讨。本文通过
将机器视觉技术应用到机械零件测量领域不仅可以克服传统测量方法所带来的应力变形,而且能够达到高精度与快速测量的要求,适用于薄壁件,复杂件及异型件等的测量。边缘作为视
近年来室内环境下基于位置的服务在移动应用市场上的需求与日俱增,室内定位技术的开发成为国内外的研究热点。其中基于WLAN指纹的相关技术由于实现简单且无需部署额外设备而
随着经济全球化进程的加快,我国与国际间的进出口贸易规模也在逐渐扩大,我国已成为全球经济的重要组成部分。但在经济和贸易快速发展的背后是我国能源消耗的形式不容客观,大