论文部分内容阅读
由波兰数学家Z.Pawlak首次提出的粗糙集理论是一种处理不确定性和含糊性的数据分析理论。规则提取是粗糙集的核心问题之一,然而现有的规则提取方法中存在着各种局限性。因此本文将对此进行重点研究,提出几种新的基于粗糙集的规则提取方法,以促进粗糙集方法的实用化,并以信贷审批模型的建立为例探讨其在数据挖掘中的应用。
本文的主要工作和创新性成果如下:
一、建立粗糙集和关联规则相关概念之间的联系,提出一种基于粗糙集的多维关联规则提取算法。该方法能有效减少频集生成的搜索空间,降低复杂度(在最坏的情况下时间复杂度为O(nlogn),其中n为记录数目),避免冗余规则。
二、结合粒计算的思想,提出一种协调决策规则的提取算法。实验表明该方法能有效处理数据集中存在的噪声,适用于不一致的决策表,且提取出的规则具有简洁、协调一致等特点。
三、针对实际情况中数据集动态更新的问题,提出一种基于分类一致性的规则增量式更新方法。该方法只需部分修改相应规则,相较于对变化后的整个数据集从头运行整个规则提取算法,有效减少了时空浪费。
四、面向信用卡管理领域,基于数据挖掘的基本流程,应用本文提出的规则提取算法建立了信贷审批模型。与其他分类算法所建模型相比,本文方法获取的决策规则分类精度较高,错误代价损失小,简洁,易于解释,便于应用。