论文部分内容阅读
多关系数据挖掘是近年来快速发展的重要的数据挖掘领域之一。传统的数据挖掘方法只能从单一关系中进行模式发现,而很难在复杂的结构化数据中发现复杂的关系模式。但是在实际应用中,数据的组织形式多以关系数据库中的多关系模式表示,传统的数据挖掘方法并不适合。而多关系数据挖掘算法则能够良好的适应关系数据库中多关系的数据组织,很好的完成挖掘任务。因此本文以多关系数据挖掘算法作为研究对象。对于多关系数据挖掘算法而言,高效性和可扩展性一直是该领域的研究重点。因为多关系数据挖掘任务的复杂性对算法性能提出了更高的要求,同时,由于在多关系模式下,算法的搜索空间比单一关系模式下变得更大,更复杂。对于每个优化假设的评价也更为复杂。针对多关系数据挖掘算法存在的这些问题,本文的研究重点放在了提高多关系数据挖掘算法的效率上。制约多关系数据挖掘算法的瓶颈在于搜索空间的大小,因此提高效率的关键在于减少搜索空间的大小。本文以多关系数据分类算法为切入点,用决策树算法建立多关系分类模型实现多关系数据分类的目标。在提高算法效率上面,本文主要做了以下的工作:在多关系决策树算法中加入充分表,减少了对每个假设模式评价过程中,所需连接数据表的数量。同时,引入目标元组ID传播技术,使得每个假设模式评价过程的连接都不浪费,即使该模式不是最优的,也会进行目标元组ID的传播,从而保留该连接信息。使得算法模式评价的效率有所提高。使用PKDD’99中的Financial数据集对改进的多关系决策树算法进行了实验,通过十次交叉迭代验证法证实了充分表结构和目标元组ID传播技术对提高多关系决策树分类算法运行效率是有帮助的。本文的最后,提出继续对多关系决策树算法效率的改进的一些展望,可以在状态空间的搜索算法以及利用数据集背景知识等方面继续做出改进。