论文部分内容阅读
Internet的飞速发展使其成为日益重要和最具潜力的资源。WWW作为一种新的信息资源,为计算机领域新技术的产生开辟了新的领域,同时也为传统技术的研究提出了新的方向。
研究表明,目前Web上的页面主要是以动态页面的形式存在(占总数的80%以上),即用户在调用页面时临时通过程序动态生成的页面。动态页面使用固定的显示模板,然后将后台数据库中的数据嵌入而得。这些数据经过专业人员组织整理,因而具有更高的价值。本文重点研究动态页面的抽取技术,它的主要挑战在于以下几点:(1)动态页面表示形式千变万化,如何从多样的动态页面中有效的定位网页信息。(2)用户需要从动态网页中抽取的信息内容可能多种多样,如何精确的表示不同用户所定义的不同的抽取请求。
本文重点研究了动态网页抽取技术。通过深入分析动态网页抽取技术中的关键和难点以及己实现系统的特点与不足,本人在研究获得的算法基础上设计了一个基于树模型和Wrapper技术的动态网页抽取系统。主要的研究和成果如下:
1. 针对动态网页按信息结构的不同进行了分类定义。将动态网页分为多记录项动态网页和单记录项动态网页。
2. 针对多记录动态网页,提出一种新的基于树模型的信息抽取算法——DETM。它充分利用了HTML的树型结构,运用树编辑距离模型和树归并算法来定位和抽取网页信息。
3. 针对单记录动态网页,提出一种基于用户自定义模板的信息抽取算法。它利用模板自动生成技术较好的解决了单记录动态网页信息项定位比较困难这个难题,将网页结构信息使用XML文档的形式表示。
4. 基于上述的对动态网页的两种分类定义和各自的抽取算法,使用java在开源项目QUIOTIX的基础上,实现了一个动态网页的抽取系统。它能对各类动态网页实现自动抽取,生成以XML结构化文档为表现方式的抽取结果。实验表明,该动态网页抽取系统对于单记录项网页抽取精度达到85%,对于多记录项网页的抽取精度达到97%。