论文部分内容阅读
近十几年来,随着互联网的快速普及与发展,网上的应用越来越丰富,信息量更是呈指数级、爆炸式增长。互联网已经日益成为了人们获取信息的最重要的资源。然而,面对着如此海量的信息,人们想要获取真正感兴趣的信息也越来越难了。搜索引擎虽然可以帮助人们在浩如烟海的信息海洋中搜寻到自己所需要的信息。但是,传统的搜索引擎属于海量搜索,具有信息量大、查询不准确、深度不够等特点。对网上的许多非常有用的数据,例如电话黄页、产品目录、股票行情、工作信息、房源信息等,传统的搜索引擎将无能为力。
所以,本文设计了一个网站抽取系统,把来源分散的同一主题的数据自动抽取并整合后存放到关系数据库中。然后根据需要,将这些数据提供给不同的应用系统使用,就可以使用户很容易地获得他们真正需要的信息了。
本文中设计的系统是一个规则驱动的网站数据抽取平台,使用它进行数据抽取时,不需要对每一个具体的网站编写专门的程序。但需要针对每一个具体的网站定义不同的抽取规则。它要求用户首先选定并浏览样本页面,根据对页面内容的理解创建概念模式,即采用人工方式为样本页面附加语义信息;然后对样本页面中的样本记录进行标记,通过机器学习的方法形成信息抽取规则:最后,系统利用已形成的抽取规则对具有相似结构的网页实现信息抽取。
本文中设计的抽取系统的工作对象是包含大量关系型数据的网站,这些数据中的每一条记录都可以归结到“名称一属性”的集合的形式。针对可能的网站结构,本文归纳总结出了目录导航型和查询返回型两种基本网站结构,并分别从网站首页出发,导出了包含目标数据的最终页面的URL任务集。针对包含目标数据的各种不同网页布局,本文也提供了三种类型的抽取规则模板,基本可以实现对各种动态网页的数据抽取工作。