论文部分内容阅读
本文首先对World Wide Web的产生、发展及其工作原理作了概述,引出了网络检索问题,分析了当前搜索引擎的工作原理。目前大多数搜索引擎都属于机器人搜索引擎,它们尽可能的收集WWW上的网页,建立索引数据库,回答用户的查询。由于WWW规模的飞速发展,而且WWW没有良好的结构和Web服务器的自治性,这些都对机器人搜索引擎覆盖一切的目标提出了挑战。近年来聚焦于单一主题的WWW检索逐渐受到重视,提出了聚焦爬行(Focused Crawling)的概念。本文在此基础上结合数据挖掘技术提出一种面向主题的WWW信息挖掘框架,不仅能够在有限的软硬件和网络资源条件下,实时高效地完成主题相关的网页的收集,更重要的是能够对检索到的主题相关网页进行链接结构分析和相关主题分析,最大限度的对主题进行挖掘,这是普通搜索引擎所不具备的。全文共分为以下五章:第一章介绍了WWW和WWW上搜索技术发展的现状。第二章分析了普通搜索引擎技术。第三章阐述了面向主题的WWW信息挖掘框架。第四章描述了系统原型TWIMS的设计与实现,对在各个模块开发中所涉及到的关键技术进行了讨论,包括数据结构、核心算法和流程分析、多线程控制的技术实现等等。第五章总结全文并提出了进一步的工作展望。