论文部分内容阅读
关联规则提取是数据挖掘中重要组成部分,其目标是发现数据集中隐藏的有趣关联关系。关联规则的研究已进入到各领域,出现了种类多样的数据类型,如数量型、类别型等。采用一般的规则提取模型对此类属性值进行规则提取往往会引发问题,有研究引入模糊的概念以解决此类问题。在模糊关联规则提取中,先将样本集转换成模糊集,再对模糊集进行规则提取。除数据类型复杂多样,还因庞大的数据量对关联规则提取提出了更严苛的要求,例如I/O瓶颈、内存等硬件资源的限制,并行关联规则提取已成为热门研究课题。由Kennedy等学者在1995年提出的粒子群优化算法发展已近二十年,成为群体智能理论的重要组成部分。粒子群优化算法具有概念简单清晰、实现方便快捷等优势,被广泛研究并应用于经济、社会、生物等领域。综上,本文对关联规则和粒子群优化算法的概念、定义、研究现状等进行描述和分析,提出以粒子群优化算法为搜索方法,对模糊关联规则进行提取的研究思路,并着重进行如下工作内容:研究并改进基本粒子群优化算法,提出基于可变搜索区域的自适应粒子群优化算法,并将其应用于形状误差检测。对粒子群优化算法的基本概念、参数、性能等进行学习和分析,针对种群在多峰函数极值搜索过程中搜索效率低、易陷入局部最优解等缺陷,使用指数惯性权重、对称加速因子、动态区域搜索等策略,提高种群的搜索性能。通过对关联规则提取框架、关联规则经典挖掘算法缺陷、粒子群优化算法优劣等方面的分析研究,将多变异算子与粒子群优化算法相结合,提出基于多变异粒子群优化算法实现的模糊关联规则提取方法。该方法先将数据集模糊化,再通过粒子群优化算法对模糊集进行规则搜索,最终得到满足条件的模糊关联规则。将多变异粒子群优化算法改进为多种群并行的多变异粒子群优化算法,实现模糊关联规则的并行提取。从并行计算环境选择、算法设计实现等方面着手,初步实现粒子群对关联规则的并行化搜索,实验证明改进后的算法具有并行算法优点,在大数据集中优于串行提取算法。