论文部分内容阅读
随着科技的进步网络技术的发展,互联网已经在各个领域融入我们的生活。面对日益增长的网页数据,如何获取其中有价值的信息或者是所感兴趣的信息,是一个需要面对的问题。为了获取这些网页中的半结构化数据,本文研究并实现了一种基于模型的信息抽取方法,并将其应用于M-IE(Modeling-base InformationExtraction)系统。本文提出一种基于模型的信息抽取方法:首先通过界面简单操作制定抽取规则,然后根据规则自动抽取信息。通过研究用户浏览网页的行为,结合对浏览器内核的研究,本文提出一种以三元素为基础的脚本描述。这里的三元素分别描述了:1.网页中指定的元素;2.对元素进行的操作;3.输出内容的格式。然后对最终生成的脚本如何解析,做了详细的阐述,对于元素1的实现给出了详细的算法说明。基于模型的信息抽取方法可以应用于本文提出的M-IE系统中。该系统主要针对论坛、微博和门户网站进行精确信息抓取,输出结构化的数据。最关键的是,这些数据是具有语义的。论坛和微博所抽取的信息,可以反应草根群体的信息热点。在M-IE系统中,通过界面可以简单快速的生成抽取规则,不需要专业知识。M-IE系统的总体结构可以划分为抽取规则生成模块、抽取规则解析模块、信息过滤模块、数据库模块和数据分析模块。该系统中各个模块具有定义良好的接口,可以动态替换。本文最后以学校论坛和sina微博为例子,阐述了在M-IE系统中,如何经过简单的操作生成抽取规则。在生成抽取规则时,可以预览到即将抓取的信息。这些信息不仅是结构化的,而且是具有语义的。