论文部分内容阅读
DeepWeb是指隐藏在Web数据库中而不能被传统搜索引擎索引到的那部分内容的集合。对于特定领域的Deep Web,不同的站点会提供不同查询能力的查询接口。集成查询接口可以达到访问同一领域所有资源的目的。集成查询接口主要有模式匹配和模式集成两部分,其中模式匹配问题已经得到了广泛研究。本文对查询接口集成问题中的模式集成问题进行了分析研究。由于现实中的查询接口结构各异,使得在集成查询接口时无法得到满足所有需求的结构。基于满足多数需求的原则,本文在集成查询接口时采用频繁使用的查询接口结构。为了得到结构良好且语义全面的查询接口,本文针对查询接口集成问题中的模式集成问题提出了两类新的多目标优化模型,并对每个模型给出了求解算法。在第一个模型中,用有序树表示查询接口,可以充分体现查询接口所蕴含的结构信息,并且根据查询接口的有序树给出了一类新的结构约束和顺序约束。集成的查询接口应该集成那些在查询接口频繁使用的结构,因此,查询接口集成问题可以转化成在所有查询接口中挖掘频繁结构的问题,即在所有有序树中挖掘频繁子树。最后,以极大化叶节点个数和频繁子树的频繁度为目标,建立了一个多目标优化模型,并且给出了求解该模型的频繁子树挖掘算法。用多个领域的查询接口数据进行实验,并对实验结果进行了分析和评价,实验结果表明了算法的可行性和有效性。但是当集成结构差异很大的查询接口时,利用此模型不能够得到理想的集成查询接口。针对第一个模型的不足,本文提出了改进的模型及算法。首先,根据查询接口的结构,将查询接口的有序树转化成结构矩阵;根据该结构矩阵给出了度量两棵有序树的结构相似程度的计算方法;根据所有查询接口中的频繁结构构造了一个用于参考的理想有序树。然后,根据所有查询接口的顺序约束将所有的属性排序,基于此排序给出了衡量查询接口属性排序好坏的标准。最后,通过优化集成的有序树与理想有序树的相似度和集成有序树中的叶节点的排序,对查询接口集成问题建立了一种新的多目标优化模型。针对该模型,设计了一种合并树算法进行求解。最后,数据实验证明了改进模型的合理性和有效性,并验证了算法的稳定性。