基于决策树算法的多关系数据分类研究

被引量 : 3次 | 上传用户:FUHENGBIN
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多关系数据挖掘是近年来快速发展的重要的数据挖掘领域之一。传统的数据挖掘方法只能从单一关系中进行模式发现,而很难在复杂的结构化数据中发现复杂的关系模式。但是在实际应用中,数据的组织形式多以关系数据库中的多关系模式表示,传统的数据挖掘方法并不适合。而多关系数据挖掘算法则能够良好的适应关系数据库中多关系的数据组织,很好的完成挖掘任务。因此本文以多关系数据挖掘算法作为研究对象。对于多关系数据挖掘算法而言,高效性和可扩展性一直是该领域的研究重点。因为多关系数据挖掘任务的复杂性对算法性能提出了更高的要求,同时,由于在多关系模式下,算法的搜索空间比单一关系模式下变得更大,更复杂。对于每个优化假设的评价也更为复杂。针对多关系数据挖掘算法存在的这些问题,本文的研究重点放在了提高多关系数据挖掘算法的效率上。制约多关系数据挖掘算法的瓶颈在于搜索空间的大小,因此提高效率的关键在于减少搜索空间的大小。本文以多关系数据分类算法为切入点,用决策树算法建立多关系分类模型实现多关系数据分类的目标。在提高算法效率上面,本文主要做了以下的工作:在多关系决策树算法中加入充分表,减少了对每个假设模式评价过程中,所需连接数据表的数量。同时,引入目标元组ID传播技术,使得每个假设模式评价过程的连接都不浪费,即使该模式不是最优的,也会进行目标元组ID的传播,从而保留该连接信息。使得算法模式评价的效率有所提高。使用PKDD’99中的Financial数据集对改进的多关系决策树算法进行了实验,通过十次交叉迭代验证法证实了充分表结构和目标元组ID传播技术对提高多关系决策树分类算法运行效率是有帮助的。本文的最后,提出继续对多关系决策树算法效率的改进的一些展望,可以在状态空间的搜索算法以及利用数据集背景知识等方面继续做出改进。
其他文献
中国优秀传统文化融入《思想道德修养与法律基础》课的必要性,在于这是适应党中央方针政策、构建和谐社会的需要,是高校的使命,更是提升高校大学生思想道德、政治素质的需要
剪纸活动是我国传统的民间艺术,在幼儿园课程设置中,剪纸教学已经成为幼儿美术教学的一项重要内容。剪纸活动能够培养幼儿的动手、动脑、创新、审美等多种能力,可以充分发挥
长期以来,计划管理一直作为电网公司进行日常管理的主要工具,计划管理的有效与否直接决定了企业的工作效率。本文阐述了综合计划管理的基本概念、特点和作用;选取了国内外大型
电容微位移传感器作为一种非接触式精密测量仪器,具有测量范围大、结构简单、稳定可靠、使用方便等优点。但现有的电容微位移传感器一般采用传统的平行极板形式,存在着很大的
夏洛蒂·勃朗特在《简·爱》中,通过对"灰姑娘母题"的戏仿,消解了女人非天使即魔鬼形象的二元对立,改写了女人迫害女人的关系定位,颠覆了男人拯救女人的叙事模式,从而成功地
无线传感器网络拥塞问题会导致丢包率增加、时延加剧,浪费节点能量。本文提出一种基于能量优先的拥塞缓解机制(PECR)。节点首先周期性地检测缓冲区队列占用率来确定当前拥塞
随着港口业的迅猛发展,信息化建设对于港口集团自身发展的重要性同益凸显。人力资源管理信息化是港口集团信息化中的一个重要环节。人力资源管理水平的提升不仅需要高素质的
2008年世界金融危机对中国东部沿海地区企业,特别是劳动密集型企业造成巨大冲击,使得城市容纳劳动力的能力大大消弱。在此背景下,大量农民工因此返乡。2008年年末全国有返乡
本文述及绿化油用的牡丹品种及其生物学特性、繁育技术和立地造林措施。‘凤丹’和紫斑牡丹抗逆性强,具有抗旱关键基因DREB2A、WRKY和XET,而‘凤丹’适应性更广。牡丹籽油在5
用户界面是整个软件系统的重要组成部分,用户界面的开发约占一半的开发资源。因此,用户界面开发效率的高低已成为整个软件系统开发效率得以提高的关键因素。同时,早期的界面