论文部分内容阅读
DeepWeb数据集成系统是获取并利用万维网上的自由分布的DeepWeb数据库中数据信息的一种有效方式,但是由于DeepWeb数据库数量繁多且涉及不同领域,因此按领域对DeepWeb数据库分类集成成为DeepWeb数据集成系统中的关键技术,其中首要的任务是实现DeepWeb数据库的分类,而DeepWeb查询接口是DeepWeb数据库的本地视图,因此实现DeepWeb查询接口的分类即可实现DeepWeb数据库的分类。本文使用pre-query分类方式对DeepWeb查询接口进行分类,首先基于关联规则抽取DeepWeb查询接口中的查询模式以获取查询接口中的信息,据此提出基于元组匹配的DeepWeb数据库分类方法,进而提出基于锚特征的DeepWeb数据库分类方法,从而实现DeepWeb数据库的分类。具体内容如下:
(1)基于关联规则的DeepWeb查询接口模式抽取方法。首先给出DeepWeb查询接口中与HTML脚本语言相关的定义,并对DeepWeb查询接口的源代码进行分析,使用五元组重新表示其中的HTML标签,进而将DeepWeb查询接口转化为标签序列,接着将该标签序列进行优化,结合标签中的pos属性值,得到标签对应查询控件之间的位置关系,通过对查询接口中查询控件之间位置关系的观察和统计,构建查询控件相关的关联规则,并据此对DeepWeb查询接口中查询条件对应的条件模式进行形式化表示,进而结合查询控件以及属性标签对应的实例构建查询条件,最后将DeepWeb查询接口的查询模式(正文称之为模式Ⅰ)表示成查询条件的集合。
(2)基于元组匹配的DeepWeb数据库分类方法。首先将查询接口中的文本信息分为属性标记词、属性实例标记词以及噪音文本信息,使用基于关联规则的DeepWeb查询接口模式抽取方法得到查询接口对应的模式信息,并抽取其中的属性标记词和属性实例标记词,进而使用属性集合、属性实例集合、属性-属性关系集合以及属性-属性实例关系集合简化表示查询接口的查询模式(正文称之为模式Ⅱ),在此基础上使用特定领域的查询接口集合构建领域查询接口,根据属性和属性实例在特定领域中出现的次数及深度计算相应的权重,根据属性-属性关系以及属性-属性实例关系构建属性以及属性实例的路径,并结合标记词,构建领域查询接口对应的特征四元组集合以及待分类查询接口对应的特征三元组集合,通过元组匹配得到待查询接口与领域查询接口的匹配度,最后根据匹配度的大小确定分类结果。
(3)基于锚特征的DeepWeb数据库分类方法。在基于元组匹配的DeepWeb数据库分类方法基础上,提出基于锚特征的DeepWeb数据库分类方法。首先从特定领域的查询接口集合中获取该领域内的锚特征集合。对于待分类查询接口,则首先抽取其中的文本标记词集合,如果该文本标记词集合与特定领域对应的锚特征集合匹配成功,则完成分类;否则建立待分类查询接口对应的特征三元组集合以及特定领域对应的特征四元组集合,之后基于元组匹配对待分类查询接口进行分类。