论文部分内容阅读
案例推理(Case-Based Reasoning, CBR)是商业预测领域的预测方法之一,它在保持较好预测性能的同时可对预测结果做出解释。企业经营中,失败企业比例小,正常企业比例大,但一个企业的失败所造成的损失不可小觑,故构造一个对少数类有较高预测准确率的方法是非常有意义的。对于由少数类和多数类组成的商业预警问题,构建的方法往往是基于平衡数据集的假设,因此在解决非平衡数据集问题时对少数类的预警不理想。对此问题,本文集成聚类算法到案例推理中,设计了聚类案例推理方法CCBR(ClusteringCBR)。CCBR方法首先将案例库中案例通过层次聚类算法形成若干个案例类,并计算得到每个案例类的聚类中心;在案例检索时,将目标案例与这些聚类中心进行最近邻案例类检索,找到最相似的案例类后,再在该类内检索出若干个近邻作为匹配案例对目标案例进行预测。基于四个非平衡数据集,本文将CCBR方法与传统案例推理方法CBR、SVM方法、LOGIT方法和MDA方法做了对比。实验结果表明,CCBR方法可显著提高CBR预测非平衡数据集中少数类案例的召回率。鉴于非平衡数据集中的少数类的重要地位,正确识别少数类反映了所构建方法的预警性能及其应用价值。传统消除数据集非平衡性的方法有过学习或信息丢失等缺陷,同时失去了对现实数据分布的真正模拟。相比较而言,通过算法的改进来处理非平衡数据集具有更好的问题针对性,CCBR正是通过算法的改进来直接处理非平衡数据集的方法。通过实验结果的对比分析可看出CCBR的优势:对于非平衡数据集,CCBR可一直保持相对较高的召回率,即对案例数目较少的类有较高的检对率。本研究中t-1和t-2数据集是企业失败前一年数据和前两年非平衡数据集,通过应用CCBR方法,这两个数据集可以及时地在前一年或前两年对企业危机做出预警,积极地防患于未然。在文章结构安排上,本文首先指出了选题背景和研究意义,对有关非平衡数据集的分类预警、案例推理的性能研究、聚类算法在案例推理中的应用和企业失败预警方法的研究状况作了回顾,并结合本文的研究实际,说明了文中用到的研究领域和方向。其次,对案例集中指标属性的选取和属性规范化方法做了研究。然后对聚类案例推理的基本原理做以介绍,说明聚类案例推理算法中案例类的生成、聚类数目的确定、案例类和案例的检索以及预警。最后,对初始案例库做以简单介绍,进一步说明了实验中所使用的属性规范化方法及性能评估指标,并给出了CCBR方法与CBR、SVM、 LOGIT和MDA方法的性能对比试验结果和分析说明。通过20个目标案例,初步考察了CCBR方法的实用价值。