基于决策树的CON-MINER数据挖掘模型设计与实现

来源 :上海海事大学 | 被引量 : 3次 | 上传用户:zonglijuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着国际集装箱运输的蓬勃发展,我国的港口集装箱运输一直保持着高速发展态势。在这一过程中,大量的原始数据被不断收集并存储到计算机中,但由于数据处理能力的低下,造成了目前信息丰富,知识贫乏的现状。数据挖掘——用非平凡的方法从大量数据中发现有用的知识,正是应此要求而迅速发展起来的一门科学。数据挖掘包含众多任务,分类是其中一项被广泛应用的技术。分类经过长期的发展已产生了众多算法,决策树算法就是其中一种。 为了更好的总结我国集装箱运输发展情况,在导师的指导下,设计了集装箱信息管理系统和集装箱信息挖掘模型CON-MINER。该模型采用了新设计的决策树算法:CON-DM算法,保证了挖掘的有效性。另外在模型的实现过程中,采用了JAVA语言和面向对象的思想,为挖掘系统的二次开发打下了基础。 决策树学习算法在数据挖掘技术中具有很重要的作用,本文首先研究了决策树学习算法中最为重要的一种ID3(Information Definition)算法,并应用相关度的概念定义了ID3的改进算法:CON-DM算法。 CON-DM算法首先借鉴Med Gen算法:先对各属性进行相关性分析,将与分类属性相关度小于事先规定的阈值的属性剔除。这减少了子树的重复,有效的降低了决策树的复杂度,从而使生成的知识更容易理解。其次,CON-DM算法引进了复合度量基准取代信息增益作为决策属性选择的标准。在一定程度上解决了决策树采用信息增益基准所造成的偏向有许多值的属性的缺陷,并可改善决策树结构和分类正确率。 其次,本文针对用户需求,应用CON-DM算法设计和实现了CON-MINNER数据挖掘模型。这一模型主要是根据盈利的航线和不盈利航线属性和行为,建立航线盈利预测模型,为企业决策服务。该模型首先根据这一主题建立数据仓库,并提供了展示该数据仓库的功能。通过数据仓库的数据立方体,用户可以进行不同细度层次的挖掘操作。 本论文分为六章。第一章介绍了课题的背景。第二章是对数据挖掘技术的介绍。在第三章,介绍了一种挖掘技术——决策树。第四章,详细介绍CON-DM算法。第五、六章重点介绍了CON-MINER的设计方案和相关的开发工作,主要包括总体系统结构设计、数据库设计、数据模型设计、业务流程和界面风格设计。
其他文献
软件集成是一种以重用现存的软件而快速地建立新软件的工程技术。利用软件的重用和集成可以有效地降低软件开发的成本及缩短开发时间,并可以提高软件的质量。目前基于Web和N_
随着PDA(Personal Digital Assistant,即个人数字助理或掌上电脑)软硬件水平的提高,其功能越来越强大,PDA的很多应用和PC联系到一起,所以PDA与PC的通信功能日益显出其重要性,
随着信息时代的不断发展,越来越多的实际流程电子化,从而推动了工作流技术的快速发展;面对现今多样的工作流管理系统的开发技术和手段,可以看到,开发一个符合标准规范、灵活性强、
随着INTERNET的发展,传真服务器的应用越来越广泛.但传统的基于PC架构的传真服务器价格昂贵,维护成本高,专用性不强,因此市场需要性价比更高的传真服务器.该文提出了以嵌入式
随着微电子技术的迅猛发展,集成电路规模的急速扩大和集成度的迅速提高,给传统的测试技术和测试方法带来了严峻的挑战。 本文首先分析了稳态电流测试方法和瞬态电流测试方法的原理、特点,并分别指出它们的不足,在此基础上研究了一种新型的测试方法——全速电流测试方法。全速电流测试方法将稳态电流测试方法和瞬态电流测试方法结合起来,利用在一段时间内输入两个交替变换的向量,通过检验其平均电流的情况,对被测电路进
随着汉字识别的应用越来越普遍,应用系统中对汉字识别的速度和正确率的要求也越来越高。目前,汉字识别技术主要分为两种,即在线识别和离线识别。汉字在线识别的技术已日趋成熟,很
为有效提高Web应用系统的开发效率,降低开发费用,提高程序的可重用率、可维护性和可扩展性,在目前基于J2EE架构开发Web应用的技术基础上,采用MVC(Model-View-Controller)框架开发