论文部分内容阅读
近年来,信息技术的广泛应用,使得人们在各个领域获取的信息量急剧膨胀。面对这些模糊的、不确定的海量信息,人类却陷入了乏力于获取知识的困境。粗糙集理论作为一种处理模糊性、不确定性知识的有效数学工具,它不需要任何先验知识,就可直接对数据进行分析,从中发现隐含的知识。本文将粗糙集理论应用于知识获取领域,对知识获取中的数据离散化、属性约简、以及规则抽取(值约简)做了详细的分析与深入探讨,并将相应的研究成果应用到中医智能诊断系统中。本文主要工作如下:1)针对一般离散化算法不能保证原有信息系统中样本之间的“分辨关系”,以及离散化效果较差的问题,提出一种基于粗糙集的数据离散化算法(DDRS)。该算法利用候选断点在区分矩阵中出现频率大小作为启发信息,逐次选择最重要的断点加入到结果断点集中,并由最终的断点集得离散化后的信息系统。实验结果表明,该算法没有破坏样本之间的“分辨关系”,且具有较好的离散化效果。2)提出一种基于条件熵的启发式属性约简算法(HARE)。该算法以条件熵作为启发信息,缩小搜索空间,降低时间复杂度;并加入了二次约简过程,较好地剔除初次约简中可能存在的冗余属性。实验结果表明,在不提高传统算法时间复杂度的情况下,该算法得到的约简结果更为简单。同时,针对一般属性约简算法不能对不相容决策表进行属性约简问题,给出一种不相容决策表的属性约简算法(ARIT)。该算法以改进的可辨识矩阵为基础,能有效地对不相容决策进行属性约简;同时以属性频率作为启发信息,缩小搜索空间,很好地降低了计算复杂度。3)针对传统值约简算法时间开销较大,获得规则置信度不高。提出一种基于受限区分矩阵的值约简算法(VRDM)。该算法以加权平均的属性值重要度作为启发信息,保证值约简更加合理,最后获取的规则具有较高的置信度;并以受限区分矩阵作为基础,在值约简过程中不需多次遍历决策表,有效地降低计算复杂度。4)在理论研究的基础上,将本文提出的算法应用到实际的中医智能诊断系统中,更好地帮助医生做出快速、正确的决策(诊断)。