论文部分内容阅读
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,各行各业积累了大量的历史数据,而这些激增的历史数据中往往隐藏很多重要的信息。如何从历史数据中及时发现有用的知识,从而挖掘出其潜在的价值,提高其利用率,是信息处理技术研究领域的一项重要课题。作为其解决方案,近年来数据挖掘(DataMining,DM)技术迅速崛起。“计划免疫信息监测管理子系统”即防疫站系统,对脊髓灰质炎、麻疹、新生儿破伤风等危害儿童健康的传染性疾病的个案录入、上传以及各类报表的统计、汇总、上传等均由计算机完成,各类数据被存储在数据库中,这就为数据挖掘的应用创造了条件。本文我们应用数据挖掘技术中的聚类和分类算法对防疫站系统中的麻疹数据进行挖掘,找出有用的信息。首先,我们提出了一个新颖的能处理包含混合属性的大数据集的聚类算法——基于CF*-树聚类算法,用该算法对麻疹数据进行聚类,把全国29个省市自治区(除西藏外)分成麻疹控制较好(Ⅰ)、一般(Ⅱ)、较差(Ⅲ)和高危(Ⅳ)四类,并根据各类地区的不同麻疹爆发特点采取相应的措施;接着,我们介绍了集建树和剪枝于一体的决策树分类算法-PUBLIC算法,并用它对麻疹数据进行分类,将分类得出的预测信息,应用于麻疹疑似病例,帮助判断麻疹疑似病例。