论文部分内容阅读
随着互联网的飞速发展,互联网络上的信息量正在以几何级数的速度增长,Internet已经成为目前世界上最大的信息资源库。如何满足人们快速、准确、全面获取信息的需求,已经成为人们面临的一大难题。搜索引擎的出现从一定程度上解决了信息获取问题。但是随着信息多元化的增长,通用搜索引擎越来越难以满足特定用户专业化、个性化、更深入的搜索需求。在这种背景下,近年来面向特定领域的主题搜索技术成为网络信息检索领域的研究热点。本文首先对比介绍了通用搜索引擎和领域主题搜索引擎在系统架构、工作原理、关键技术等方面的异同,分析了面向特定领域主题搜索技术的研究现状和发展方向。随后,研究了主题搜索技术中领域知识库的构建、更新与领域主题识别两项关键技术。重点研究了主题词典的结构和建立方法,以及主题特征模型和页面信息模型的构建过程,并提出了相关算法。接下来,研究了主题网络爬行器的搜索启发策略,对比分析了几种典型搜索算法,并提出了基于综合价值搜索策略。在此基础上,设计了一个主题网络爬行器。最后,在以上研究内容基础上,实现了一个面向特定领域的主题搜索引擎原型系统。该系统不仅能够准确自动地爬行到主题相关的网页,而且还可以节约网络带宽,具有良好的稳定性。该系统通过一些典型实验,验证了系统在查全率、查准率、主题满意度等评价指标上都达到了较高水平并取得了良好的效果。