基于背景知识的关系数据分类算法的研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:fibiya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术将传统的数据分析方法与处理大量数据的复杂算法相结合。数据挖掘为探查和分析新的数据类型以及用新方法分析旧有数据类型提供了良好的机会。数据挖掘的目的是从大量的数据中找出先前未知的有用模式。关系数据挖掘作为数据挖掘的一个分支,已经成为近年来的研究热点。本文着重对关系数据的分类方法进行了研究。首先,本文对关系数据挖掘理论进行了深入的研究,通过对大量实例的分析和研究,提出了对关系数据库中各种表之间的关联关系进行分类和评价的标准,分别从形式上和含义上对关系数据库中各种表之间的关联关系进行了分类和评价。其次,提出了一种基于背景知识的关系数据分类算法。该算法能够通过构建关系决策树的方式实现关系数据分类。算法采用了信息增益作为属性的评价标准,并引入了元组ID传播技术,能够将背景知识表中的有用信息加入到目标关系表中,对当前分类起到了指导的作用。此外,该算法克服了传统数据挖掘算法不能直接支持关系数据库的缺点。再次,提出了一种用户指导的关系数据分类算法。该算法改进了朴素贝叶斯分类算法,引入了用户指导的概念,减少了系统独自搜寻有用属性的时间,提高了用户的满意程度。该算法可以直接支持关系数据库,分类精确度较高。实验结果表明,本文提出的两个算法优于现有的同类算法,实现了预期的研究目标。
其他文献
Internet环境中分布着数目巨大、形式多样、功能各异的可共享资源,如何充分利用网络中丰富的资源、消除信息孤岛是人们一直在致力解决的问题。网格计算技术的出现旨在寻求有
基于统计学习理论的支持向量机算法具有坚实的数学理论基础和严格的理论分析,具有理论完备、全局优化、适应性强、推广能力好等优点,是机器学习中的一种新方法和研究新热点。它
互联网正从一个静态数据内容占主导地位的阶段快速发展成为一个包含静态媒体内容和连续媒体内容的综合的信息资源库。随着网络带宽和计算机处理能力的提升,流媒体技术成为人们
近些年,随着人们对精神文化的不断追求,以及国家对文化产业的大力支持,文化演出服务行业随之繁荣。文化演出服务提供者提供的资源日益丰富,观众的需求偏好日益个性化,如何将丰富的
为了提高决策科学化水平,电信企业也纷纷构建了以数据仓库系统为核心的经营分析系统,为企业的决策提供管理信息。然而,经营分析系统不能实时地根据变化数据产生信息,进而支持企业
数据挖掘是指从大量的数据中提取隐含的、事先未知的、并且潜在有用的知识的过程,是目前国际上数据库和信息决策领域前沿的研究方向之一。随着时序数据在金融和科技应用中的广
近几年来,随着社会信息化进程的不断深入发展,人类对信息的需求和依赖程度越来越高,如何从海量的信息资源中快速有效的获取有用的信息,已经成为研究的热点,这也给信息检索带来了极
下一代网络开放了网络能力,但是随着不断涌现的新的业务需求,开放业务能力预计不远的将来将成为下一个重大的研究热点。业务能力的开放也带来了一系列业务层面特有的安全问题,这
近年来,随着应用要求不断增强,机器人技术得到了持续发展。作为一门高科技综合学科,机器人技术的发展延伸出了许多新的技术研究领域,也带动了这些领域的技术发展。其中,路径
随着开放分布式计算的快速发展,中间件技术已经从面向对象计算的阶段发展到了面向服务计算的阶段。SOC更加靠近应用层的业务逻辑,具有敏捷性、动态适应性等特性,可与模型驱动的