论文部分内容阅读
随着互联网的快速发展以及Web数据的日益庞大,用户从Web中获取有用信息变得日益困难,如何快速有效地从Web中准确寻找信息已经成为亟待解决的问题,Web信息抽取技术应运而生。从网页中抽取信息的程序叫包装器(Wrapper),构建包装器的主要任务是编写抽取规则,因此,编写健壮灵活的抽取规则成为信息抽取的研究重点。针对Web信息抽取,人们已经提出了各种包装器构造方法,但这些方法都有其应用的局限性。随着XML技术的不断发展,XML在Web信息抽取中的应用价值日益凸现。本文在研究现有的Web信息抽取技术的基础上,把标准的XML技术运用于Web信息抽取中,提出了一种基于XML的通用Web信息抽取解决方案。本文的主要贡献有以下几点:1.设计并实现了一个通用的Web信息抽取系统。通过该系统用户能够把HTML页面中感兴趣的信息点抽取出来,用结构化和扩展性强的XML来表示抽取结果。该系统具有一定的通用性和灵活性,用户能够快速定制应用于不同领域的Web信息抽取包装器。2.提出并实现了一种基于XML的Web数据转化算法。该数据转换算法能够有效地把HTML格式的文档转化为XHTML(XML)格式的文档,它是系统对HTML页面进行清洗的技术支持,极大地简化了Web信息抽取工作。3.提出并实现了一种基于DOM的XPath生成算法。本文的信息定位是建立在XPath之上的,而在XHTML文档中定位信息点并编写XPath路径比较困难,本文提出的XPath生成算法很好地解决了这个问题。4.利用XSLT作为抽取规则的描述语言,并使用XPath来定位待抽取信息点,这有利于抽取模式的统一。对于单信息块的抽取,本系统实现了抽取规则的自动生成。对于多信息块的抽取,在获得所有待抽取节点的XPath后,对抽取模板进行合并处理得到抽取规则。同时可使用数据定位优化方法来优化规则。本文提出的Web信息抽取思想能够较好地解决Web信息抽取的问题,同时,该系统的召回率和准确率都能够达到较高的比例。