论文部分内容阅读
天气状况是人类社会活动的重要环境条件之一,它的变化将直接影响到国民经济各部门的生产、建设和管理,同时也在影响着人们的日常生活行为,气象分析研究是一个关乎国计民生的课题。大数据时代的来临,也促进了数据挖掘技术的快速发展,其中,基于关联规则的分类方法以其解释说明性强,分类精度高等特点,已成为智能决策领域中的研究热点。通过气象数据挖掘潜在其中的气象规律,以便更好地理解天气的形成与预测,是气象研究中的热点难题。气象数据晴雨分析是不平衡数据集的二分类应用,而人们更关心的是对下雨天的预测。传统二分类数据挖掘方法大多构建于正、负样本基本平衡的假设之上,若将其直接运用于不平衡数据集,往往不能取得令人满意的效果。此外,传统的关联规则挖掘方法以属性为粒度进行分析,因而所得到的关联规则的粒度并不够精细。面对大规模的气象数据集,针对数据不平衡的特性,构建更精细化的、可并行的关联分类预测模型意义重大。针对天气气象数据的特点,本文通过一种修改的基于代价敏感学习的方法,以单位时间的降雨量作为代价学习的值,将数据合理有效地区分为下雨与非下雨两类。尝试通过对数据属性值进行离散化以及二进制化编码处理,得到更小粒度的数据维度,进而试图使用一种基于分界定界的逻辑关联规则挖掘方法,运用OCAT的原则,对编码后的数据集进行迭代训练,从而得出关联规则分类器,并分析该算法性能提升的方法以及并行计算的可行性,对算法中所涉及的关键参数进行剖析。实验结果表明,该逻辑关联规则分类方法的结果直观,易于理解,并具有更精细化的粒度,运用于天气气象数据集可行有效,分类预测模型具有较高的准确性以及稳定性,同时易于实施并行计算,能较好地满足当前气象分析的实时计算分析的要求。由于该分类器基于数理逻辑,得到的分类模型可以根据需求,对其做进一步的逻辑运算,从而实现模型优化。该模型为气象数据分析提供了一种方法,以弥补传统方法在不平衡天气数据处理上的不足。