论文部分内容阅读
在当前数据模式识别理论和方法研究的基础上,针对在无监督聚类和有监督分类两种识别方法在独立用以进行样本分类,特别是给无类标志样本分类时存在的不足之处,提出了一种先聚类后分类的结合应用思路(C2CMA),将聚类方法和分类方法整合起来解决模式识别问题;并提出一个称为数据模式识别整合框架(DPRIF)的功能、方法整合策略,用以在无先验类别信息的条件下实现数据模式发现和解释,构造具备较高稳定性和分类精度、可用于判断和预测新数据的分类器。在DPRIF整合策略指导下构建了一个整合的SOFM-SVM模型,对该模型从运作机制、数据接口、功能扩展几个方面进行分析和改进:引入PCA方法进行数据降维和特征提取,用以加强聚类解释;结合统计聚类中的聚类误差概念定义一个聚类数有效性指标,利用SOFM算法中间结果进行指标求解,以筛选出有效或最佳聚类数;提出一种新的噪声识别算法(Anti-NO算法)用于对样本中的异常数据进行甄别和过滤;利用SVM模型的中间结果提取分类边界数据;进一步充实了包括模式类、噪声集和边界在内的模式识别成果。最后将该整合模型应用于上市公司信用模式识别的实例,证明该整合策略和模型对于解决C2CMA数据挖掘任务是可行有效的,同时为定量研究证券信用模式分类问题做出新的探索。