论文部分内容阅读
随着互联网的飞速发展,互联网已经成为一个巨大的知识库。为了有效地利用互联网上的信息,信息抽取技术应运而生。信息抽取技术属于人工智能的一个分支。使用信息抽取技术可以人性化地从网页中把人们需要的信息抽取出来。本文首先介绍了信息抽取技术的发展历史,国内外的研究状况,并把信息抽取技术与几种相关技术作比较。接着,本文对信息抽取技术进行简要的分析,阐述了信息抽取技术的关键任务、主要研究方法、体系结构和评价标准。
本文研究的信息抽取技术是基于DOM(文档结构模型)和网页模板的。DOM是W3C的一个标准,它能够很好的描述网页结构。参照DOM的定义,本文通过构造HTML解析树来描述网页结构。
考虑到互联网上的网页大多是通过网页模板生成的,因此在参考前人的研究成果上,本文提出了一种归纳网页模板的新方法,它能很好地对以表格为布局元素的网页进行模板归纳。通过归纳网页模板,可以减少网页中的噪音信息,从而能够提高信息抽取的准确率。
本文的抽取规则是基于DOM的路径生成的。与一般的基于绝对路径的抽取规则不同,本文的抽取规则是基于相对路径的。基于相对路径的抽取规则能减轻因为网页结构的变动而对信息抽取造成的影响。并且,基于相对路径的抽取规则还有自适应性。当网页结构完全变化时,抽取规则也能重新的自动生成。
为了验证本文理论的可行性,本文开发了一个可视化的网页抽取器,并就生成HTML解析树、归纳网页模板、生成基于相对路径的抽取规则和使用抽取规则抽取网页信息进行详细的介绍。最后,本文给出了归纳网页模板和抽取网页信息的实验结果。实验结果表明本文提出的归纳网页模板方法和信息抽取方法是正确的和高效的。