论文部分内容阅读
随着数据库技术在各个领域的的飞速发展,数据规模日益增长,数据库模式的复杂度也随之不断地增加。即使有大量的模式文档可供使用,用户也必须花费大量精力去理解数据库模式才能从数据库中获取出所需信息。因此如何快速地理解数据库模式信息成为了一个研究热点,模式摘要生成技术应运而生。模式摘要是整个模式的简洁概述,它包含原模式中的重要元素,实现了广泛的信息覆盖。如何生成一个通用的、高效的数据库模式摘要,是本文的主要研究目标。本文分析并总结了数据库模式摘要生成技术在国内外的研究现状,在此基础上选择目前机器学习领域高度关注的一种主流半监督学习方法——标签传播算法作为主要基础,对自动生成数据库模式摘要技术进行深入研究,主要工作包括:第一,提出一种数据库模式到标签图的映射方法,通过关系表中的主外键信息、属性信息以及元组信息计算出每张关系表的信息量,在标签图上采用随机游走模型,衡量每张关系表的重要性。第二,提出一种关系表相似性度量方法,由于现有关系表相似度计算方法过多的依赖于数据集,不具有普遍性,在充分考虑数据特征的基础上,本文选取了名称、属性值以及关系表之间的映射关系作为相似度模型的主要特征,利用多元线性回归模型来计算关系表的相似性。第三,深入分析基于图的半监督的标签传播算法,并以此为基础提出了一种基于标签传播的模式摘要自动生成模型。与传统模型相比,该模型结合了监督学习与无监督学习算法的优势,能同时采用标注数据和未标注数据进行聚类,取得了更高的聚类精度。本文在基准数据库TPC-E以及真实数据库CSEMIS上进行了大量的对比实验,对主要工作进行了验证。实验结果表明本文提出的模式摘要生成方法能够为用户提供更准确的模式摘要,较其他解决方案而言,在准确度及性能方面有显著的提升。