论文部分内容阅读
互联网的飞速发展使Web信息量不断膨胀,为人们提供了可供访问的海量信息。其中蕴含的庞大Web信息正在不断深化,由于其隐藏于查询接口之后,无法利用传统的搜索引擎技术获取,因而被称为Deep Web。高速增长的Deep Web信息已成为人们进行信息获取的一个重要来源,然而Deep Web数据的异构性和动态性,为大规模DeepWeb数据集成带来巨大的挑战。Deep Web数据源分类在大规模数据集成中的重要性正在逐渐凸显。本文针对Deep Web数据源分类的关键技术进行深入研究,提出了一种新颖的基于知识模型推理的增强型分类模型,有效地解决了传统分类方法的局限性。本文的主要研究工作如下:(1)研究了Deep Web结构化查询接口中可视化特征的规律性,提出了一种基于信息熵和共现特征的BOW选择方法。有效的特征选择是特征划分的重要前提。(2)分析了基于BOW的特征分类方法的不足,提出了基于知识模型的特征推理模型,弥补了BOW集合的有限性。(3)采用了基于潜在语义分析方法的层次化知识库特征选择方法,并构造基于Wikipedia知识库的辅助分类器。(4)提出了基于知识模型推理的增强型Deep Web数据源分类模型,将领域概念丰富的辅助分类器应用于有限的Deep Web查询接口特征分类中,实现特征的语义推理和领域化概念的扩充。本文最后在真实的UIUC Web数据集上进行实验验证,通过对实验结果的分析比较,验证了本文提出的分类策略是有效的,具有较高的分类精度和应用价值。