论文部分内容阅读
随着Internet的快速发展,WEB已经成为有史以来最大的信息库,并且其内容仍在以指数级增长,传统的依靠浏览器以及关键字检索查询的搜索引擎已经越来越难满足人们对互联网信息服务的需要,如何从Web中快速、准确、有效的获取信息仍然是困扰着WEB用户的一个问题,在这种背景之下,出现了WEB信息集成系统,WEB信息集成系统提供了一个访问WEB上多个数据源的、统一的和透明的访问界面,它的主要目的是支持对WEB上的多个数据源的查询,满足用户的查询需求。近年来,RSS技术在WEB上得到了广泛应用,本文将RSS技术引入到WEB信息集成中,开发设计了一种基于RSS的WEB信息集成系统。
本文首先阐述了信息集成系统的发展历程,分析了WEB信息集成系统的研究现状,接着在详细研究了RSS技术的基础上,提出了一种基于RSS的WEB信息集成方法,并对该方法用到的WEB信息抽取、RSS Feed解析、网页数据获取等关键技术进行了深入研究。根据提出的集成方法,设计了一个WEB信息集成系统,并对系统的体系结构和各个功能模块做出了详细的叙述和探讨,最后,开发实现了系统,而且还对系统进行了测试。为了提高集成性能,系统还采用了多线程和OSCache页面缓存技术。
本文设计的WEB信息集成系统能对各类网站的RSS和相关网页信息快速、准确的集成,通过该系统,WEB信息获取者可以快速、高效的获得自己需要的信息,系统目前正在企业稳定运行。