论文部分内容阅读
伴随着互联网技术的不断发展,网络上的知识、资源呈现爆炸式增长,如何对这些资源进行规范、有效的共享和管理,是目前互联网面临的关键问题,也是下一代Web的主要研究方向。针对这种情况,知识网格技术应运而生。知识网格的研究目标是在下一代Web基础上,构建对知识、信息以及资源进行有效共享和管理的平台。本文基于开源搜索引擎Nutch实现了农业信息搜索引擎系统,对该系统的不足之处进行了改进和优化。本文的工作属于国家863项目“数字农业知识网格技术研究及应用”中知识问答系统的一部分,实现了互联网上农业信息的搜集和检索,并为本地知识库的构建和扩展,提供了丰富的资源。本文具体内容:(1)介绍了本文的研究背景、研究目的和意义,概括了搜索引擎优化方面的一些研究成果。(2)详细介绍了本文的背景知识。其中包括对搜索引擎的工作原理和体系结构进行了详细的介绍,对开源搜索引擎Nutch的整体架构进行了深度的分析探索。(3)实现了农业信息搜索引擎。在对搜索引擎技术的深入了解基础上,基于开源搜索引擎Nutch开发了农业信息搜索引擎系统。(4)针对该系统中的一些不足之处进行了改进和优化。第一,网页解析模块的改进。本文采用基于STU-DOM树的网页主题信息提取方法,在网页解析基础上,实现了非主题信息节点的基于语义属性值的过滤。第二,摘要提取模块的改进。本文在基于统计的自动摘要提取方法中,添加了文本特征的判断,从词频、句型、提示词等方面对句子权重进行更为精细的赋值。第三,查询扩展模块的实现。本文构建了农业领域本体,并在此基础上,采用Jena推理机查询搜索关键词在本体中相应的子类、同义词和实例,并以此作为搜索相关词。本文开发的农业信息搜索引擎,作为“数字农业知识网格”中知识问答系统的主要功能模块,实现了对互联网上农业信息的搜集和检索,同时为本地知识库的构建和丰富提供了资源。本文还对改进前后的效果进行了比较。从比较中我们发现,搜索结果中很多门户型的网页和含有大量链接的网页被过滤掉了,更多的是以文字内容为主的网页,用户可以直接从中获取信息;改进的摘要提取模块提取的摘要内容比之前更加充实,摘要内容与网页主题的匹配程度更高;查询扩展模块提供了与搜索词具有一定语义关系的搜索相关词,为用户的精确搜索提供了途径。