基于Nutch的农业信息搜索引擎实现和优化

来源 :吉林大学 | 被引量 : 0次 | 上传用户:llongll
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网技术的不断发展,网络上的知识、资源呈现爆炸式增长,如何对这些资源进行规范、有效的共享和管理,是目前互联网面临的关键问题,也是下一代Web的主要研究方向。针对这种情况,知识网格技术应运而生。知识网格的研究目标是在下一代Web基础上,构建对知识、信息以及资源进行有效共享和管理的平台。本文基于开源搜索引擎Nutch实现了农业信息搜索引擎系统,对该系统的不足之处进行了改进和优化。本文的工作属于国家863项目“数字农业知识网格技术研究及应用”中知识问答系统的一部分,实现了互联网上农业信息的搜集和检索,并为本地知识库的构建和扩展,提供了丰富的资源。本文具体内容:(1)介绍了本文的研究背景、研究目的和意义,概括了搜索引擎优化方面的一些研究成果。(2)详细介绍了本文的背景知识。其中包括对搜索引擎的工作原理和体系结构进行了详细的介绍,对开源搜索引擎Nutch的整体架构进行了深度的分析探索。(3)实现了农业信息搜索引擎。在对搜索引擎技术的深入了解基础上,基于开源搜索引擎Nutch开发了农业信息搜索引擎系统。(4)针对该系统中的一些不足之处进行了改进和优化。第一,网页解析模块的改进。本文采用基于STU-DOM树的网页主题信息提取方法,在网页解析基础上,实现了非主题信息节点的基于语义属性值的过滤。第二,摘要提取模块的改进。本文在基于统计的自动摘要提取方法中,添加了文本特征的判断,从词频、句型、提示词等方面对句子权重进行更为精细的赋值。第三,查询扩展模块的实现。本文构建了农业领域本体,并在此基础上,采用Jena推理机查询搜索关键词在本体中相应的子类、同义词和实例,并以此作为搜索相关词。本文开发的农业信息搜索引擎,作为“数字农业知识网格”中知识问答系统的主要功能模块,实现了对互联网上农业信息的搜集和检索,同时为本地知识库的构建和丰富提供了资源。本文还对改进前后的效果进行了比较。从比较中我们发现,搜索结果中很多门户型的网页和含有大量链接的网页被过滤掉了,更多的是以文字内容为主的网页,用户可以直接从中获取信息;改进的摘要提取模块提取的摘要内容比之前更加充实,摘要内容与网页主题的匹配程度更高;查询扩展模块提供了与搜索词具有一定语义关系的搜索相关词,为用户的精确搜索提供了途径。
其他文献
刚刚踏入2010年,Google就给我们带来了一个惊喜——正式推出自有品牌手机Nexus One,这款名副其实的Gphone无论在内在,外形,规格或功能上均达到了目前手机所能达到的一个高峰,引来了众多用户的关注。实际上,在刚刚过去的CES上,Google主导开发的智能系统Android也称得上是大出风头,摩托罗拉、三星、戴尔、LG、索爱、联想等一线品牌不约而同地展出自家基于Android系统的手机
当今,市场和财富正在向著名企业的强势品牌集中。国际经济竞争的焦点也逐渐演变为在全球范围内对品牌领导权的争夺。面对新的机遇和挑战,企业对于品牌的发展关注度与日俱增。
本课题以微波辅助乳液聚合制备小粒径窄分布的聚硅氧烷微乳液,以此合成高分子量窄分布的二甲基硅油。以八甲基环四硅氧烷(D4)为原料,十二烷基苯磺酸(DBSA)为催化剂,十二烷基苯磺
语言中存在着一种普遍现象,即一词多义现象。一个词在刚被创造之初只具有一个词义,而随着社会的发展,新事物、新思想、新概念不断涌现。客观世界中的事物是无限的,而人类语言
为综合评估智能网格预报业务的产品质量,基于站点观测和格点实况分析资料,开展了对2016—2018年国家级网格指导预报、省市级订正反馈网格预报的降水和温度要素的检验,并与GRA
教育关乎着国家、民族的前途命运。习近平总书记多次在讲话中强调要办好高校思想政治教育,重要的是要提高思想政治理论课教师的素养,包括思想政治理论课教师的信仰素养、理论