论文部分内容阅读
随着互联网规模的急剧膨胀,面对用户无法正确找寻所需网络资源的困境,搜索引擎为用户提供了便利的网络信息检索条件,成为现代信息获取的重要手段之一。面向不同用户的智能网络搜索技术结合了搜索引擎的各种特性,并能够根据用户需求、总结其不同的浏览行为,为用户提供良好的个性化网络搜索服务,具有良好的应用前景。 本文首先介绍了搜索引擎的历史和现状,以及所需的技术指标和发展趋势。随后按照一般网络搜索技术的流程,即网页搜索技术、网页分析技术和网页检索技术,组织全文。并分别对这三个阶段的一般性技术和面向用户的个性化技术进行了详细研究和全面的描述。 网页信息收集阶段首先描述了搜索引擎中网页收集的几种方式,并讨论了全文搜索引擎使用爬虫进行网页收集的技术特点。在该章中,本文着重描述了面向主题的网页信息收集技术,包括一个主题爬虫的系统模型、网页爬取超链接预测、网页下载分析、主题hub网页的发现和对收集到的网页在主题上的质量控制。 网页分析阶段综合了一整套网页内容识别和语义信息提取技术,是数据挖掘在网络资源上的典型应用。这章包括了使用正则匹配识别网页源代码中的内容、网页预处理、网页特征项提取和量化,倒排文件的建立,和对具有相似内容的网页进行消重。 网页检索阶段首先介绍了信息检索的定义和经典的网页排序算法PageRank和HITS,随后描述了智能在线Rss阅读器的内部核心对象和模型建立流程。最后简单描述了系统检索和排序功能。