论文部分内容阅读
信息化浪潮改变着世界经济面貌和人们的生活方式。网上购物的消费模式已被越来越多的人所接受。与此同时,互联网信息爆炸性增长,消费者很难快速准确地获取自己所需的信息。如何在WEB分布式环境中找到有价值的信息,提供智能化、个性化的服务已经成为一个重要的研究课题。 比较购物是商务智能的一种表现,是智能信息代理的应用之一。购物代理可以主动搜索在线商店,收集互联网上异构的商品信息统一集成存储,并提供商品信息的比较,为消费者提供购买决策支持。购物代理实现的关键是如何获取有用的信息,这就涉及信息搜索和信息抽取两方面技术。其中,信息搜索负责收集有关页面信息;信息抽取则对收集的页面作进一步处理,获得比较购物所需的商品信息。 本文系统地回顾了WEB信息搜索和信息抽取的研究现状,总结了目前存在的问题及发展趋势,并提出了一种面向主题的搜索引擎及WEB信息抽取的实现方法。 面向主题的搜索引擎旨在收集主题网页。由于Spider搜索到的页面相当广泛,其中包含很多不符合主题的信息页面,因此需要对搜索的网页进行过滤,只采集其中的主题页面。本文提出了一种CoSE(Content-oriented Search Engine)搜索方法,该方法综合网页的文本