基于元组匹配和锚特征的Deep Web数据库分类研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:daodaotianxia1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
DeepWeb数据集成系统是获取并利用万维网上的自由分布的DeepWeb数据库中数据信息的一种有效方式,但是由于DeepWeb数据库数量繁多且涉及不同领域,因此按领域对DeepWeb数据库分类集成成为DeepWeb数据集成系统中的关键技术,其中首要的任务是实现DeepWeb数据库的分类,而DeepWeb查询接口是DeepWeb数据库的本地视图,因此实现DeepWeb查询接口的分类即可实现DeepWeb数据库的分类。本文使用pre-query分类方式对DeepWeb查询接口进行分类,首先基于关联规则抽取DeepWeb查询接口中的查询模式以获取查询接口中的信息,据此提出基于元组匹配的DeepWeb数据库分类方法,进而提出基于锚特征的DeepWeb数据库分类方法,从而实现DeepWeb数据库的分类。具体内容如下:   (1)基于关联规则的DeepWeb查询接口模式抽取方法。首先给出DeepWeb查询接口中与HTML脚本语言相关的定义,并对DeepWeb查询接口的源代码进行分析,使用五元组重新表示其中的HTML标签,进而将DeepWeb查询接口转化为标签序列,接着将该标签序列进行优化,结合标签中的pos属性值,得到标签对应查询控件之间的位置关系,通过对查询接口中查询控件之间位置关系的观察和统计,构建查询控件相关的关联规则,并据此对DeepWeb查询接口中查询条件对应的条件模式进行形式化表示,进而结合查询控件以及属性标签对应的实例构建查询条件,最后将DeepWeb查询接口的查询模式(正文称之为模式Ⅰ)表示成查询条件的集合。   (2)基于元组匹配的DeepWeb数据库分类方法。首先将查询接口中的文本信息分为属性标记词、属性实例标记词以及噪音文本信息,使用基于关联规则的DeepWeb查询接口模式抽取方法得到查询接口对应的模式信息,并抽取其中的属性标记词和属性实例标记词,进而使用属性集合、属性实例集合、属性-属性关系集合以及属性-属性实例关系集合简化表示查询接口的查询模式(正文称之为模式Ⅱ),在此基础上使用特定领域的查询接口集合构建领域查询接口,根据属性和属性实例在特定领域中出现的次数及深度计算相应的权重,根据属性-属性关系以及属性-属性实例关系构建属性以及属性实例的路径,并结合标记词,构建领域查询接口对应的特征四元组集合以及待分类查询接口对应的特征三元组集合,通过元组匹配得到待查询接口与领域查询接口的匹配度,最后根据匹配度的大小确定分类结果。   (3)基于锚特征的DeepWeb数据库分类方法。在基于元组匹配的DeepWeb数据库分类方法基础上,提出基于锚特征的DeepWeb数据库分类方法。首先从特定领域的查询接口集合中获取该领域内的锚特征集合。对于待分类查询接口,则首先抽取其中的文本标记词集合,如果该文本标记词集合与特定领域对应的锚特征集合匹配成功,则完成分类;否则建立待分类查询接口对应的特征三元组集合以及特定领域对应的特征四元组集合,之后基于元组匹配对待分类查询接口进行分类。
其他文献
伴随着信息技术在各个领域的蓬勃发展,如何进行快速、有效的个人身份验证,已逐渐成为人们关注的焦点。人脸识别相比于其他生物特征识别技术具有很多独特的优势,研究人脸识别可以
软件新技术的飞速发展和网速的不断提高对流量数据检测提出更大的挑战,如何在日益复杂的网络环境下进行流量数据检测已经成为目前一个重要研究课题。本文在现有研究成果的基础
电子商务在企业的发展、人们的生活中产生了重要影响。电子商务模式,是指企业在互联网的条件下开展电子商务,为了满足企业目标顾客的需求以及为实现盈利目标而采取的一系列商业
近年来,在网络时代的技术背景下,互联网技术在企业和用户需求的合力推动下迅速蔓延。流媒体作为代替普通文字和图片的网络媒介,在互联网中得到了爆发式的推广和应用。在现有
随着云视讯、共享空间等新型技术的应用,存储在网络上的信息呈现爆炸式增长。信息的海量积累和动态变化阻碍了人类对它的有效利用。为了解决从海量数据中准确、有效地查询最优
随着互联网技术的迅猛发展,特别是近年来云计算、物联网、社交网络等新兴服务的快速普及,人类社会产生的数据规模正以一种前所未有的速度增长.从大规模复杂数据中,以应用需求
随着通信技术的快速发展,人们对通信质量的要求也越来越高。如何在有限的带宽下实现信息的高速率、大容量、优质量传输引起了研究者们的极大关注。光正交频分复用(OFDM)技术作
路由协议是短距离无线网络系统研究的重要部分,网络低能耗是ZigBee技术最基本的要求,研究高效率的路由协议能够有效的降低并均衡网络的能耗,延长网络的使用。因为ZigBee技术有着
人脸表情是一种重要的非语言交流方式,在人与人之间的日常交流中,有55%的信息是通过面部表情传递的。随着科学技术的发展和对机器智能化要求的提升,使计算机能理解人的情感并