一种基于影响因子的ID3改进算法

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:affairs365
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着海量数据的不断涌现,“数据充沛,却信息匮乏”的矛盾日益突出。数据挖掘为我们从海量数据中提取或挖掘有用信息提供了有效的技术手段,其中作为数据挖掘重要方法的决策树分类挖掘被广泛应用和研究。作为决策树分类中的经典算法,ID3算法是Quinlan在1986年提出的,其选择具有最大信息增益值的属性作为分裂属性,从而使分裂后的系统具有的信息熵最小,并使所构造决策树的结构更简单,进而提高分类算法的运行效率和分类准确率。针对ID3算法在用信息增益作为分裂属性选择的标准时存在多值偏向的问题,即偏向于取值较多的属性,本文提出了一种基于影响因子的ID3改进算法。该算法通过引入影响因子的概念,在计算信息增益时考虑属性及其属性值对类标记的影响因子,选择改进后的信息增益作为划分属性的选择标准。由于取值较多的属性的影响因子在较高概率上取值较小,从而在一定程度上克服了 ID3算法的多值偏向问题。同时,为了减小训练数据集中噪声或离群点对决策树构造过程的影响,改进后的算法通过引入误分类比的概念,在计算过程中采用基于误分类比的先剪枝策略来去掉由于噪声或离群点而产生的分支,从而提高对未知样本分类的准确率。实验表明,改进后的算法在一定程度上克服了多值偏向问题,虽然计算量有所增加,但其所生成的决策树结构和分类的准确率均优于ID3。
其他文献
随着人类对自由通信的无限渴望,近几年来网络通信的发展与日俱增,尤其是无线网络技术的发展。人们可以通过配有无线接口的变携式移动计算机或者其他带有无线传感器的网络设备进
当前,随着人们生活节奏的加快和工作压力的增加,心脏系统疾病发病率持续上升,且患者年轻化趋势越来越明显,它已经成为人类生命健康的主要威胁。医院现有的软硬件资源很难在短
1982年波兰学者Z.Pawlak提出了粗糙(Rough)集。它是一种处理不精确和不完备信息的数学工具,而且不依赖于数据集之外的任何附加信息。经历了近20年的发展,已经在理论和应用上取得
随着互联网技术的飞速发展,通过搜索引擎或者Web网络来获取信息,已经发展成为人们工作和生活的习惯。由于用户查询通常仅仅由若干个单词组成,导致查询不能清晰准确的表达用户
信息粒和粒计算是近几年国际上发展较迅速的一个学科,它在许多方面都有其特别的理论意义和应用价值。 本文详细分析研究了粒计算的基本理论与技术,并将其应用于模式识别特别
如今,数据空间中的信息呈现出多元化和高速化发展趋势,人们关注的焦点不再是信息的来源,而是获取信息的方式。但是,由于数据信息的海量性、异构性和分布性等特点,如何快速、
SAT问题是计算科学中最基础的问题之一,大部分组合逻辑问题都可以归约求解SAT问题上面来,是非常具有理论研究价值和实际应用潜力的问题。对于一个布尔公式,如果存在一组变量
信息产业的发展,把我们带入了一个数字化时代。大量的数字化信息在给人们带来方便的同时,也带来了一系列问题,比如敏感信息可能轻易地被窃取、篡改、非法复制和传播等等。因此必
随着互联网信息的持续爆炸性增长,通用搜索引擎的信息覆盖率和检索精度都在不断下降,发展主题搜索引擎已经成为趋势。由于主题搜索引擎搜索的内容只限于特定主题或专门领域,被通
随着计算机技术的飞速发展,软件系统的数量越来越多,规模越来越大,复杂程度越来越高。在一些大型、长生命周期的软件测试和维护过程中,手工分析已经变得越来越不可行,越来越