论文部分内容阅读
数据挖掘是从大量数据中发现人们感兴趣的、隐藏的、前所未知的知识,而挖掘关联规则是一个重要的数据挖掘问题。本文对目前基于支持度-置信度框架的关联规则挖掘算法进行了分析与研究,发现利用支持度、置信度这两个标准来衡量关联规则存在两个主要问题: 1.有可能挖掘出一条即使支持度和置信度均很高,但却是不感兴趣的、虚假的,甚至是误导的关联规则。 2.不能挖掘出带有否定项的关联规则。 为了解决这两个问题,本文首先提出了增加兴趣度的第三个度量值——相关支持度。当挖掘出一条关联规则的支持度、置信度、相关支持度同时大于最小支持度、最小置信度、最小相关支持度阈值时,才被认为是有意义的模式;其次把相关支持度小于1的项集引入否定项集,来产生带有否定项的规则。 通过以上改进,设计出一个较好的、有效的关联规则挖掘算法,实现了尽量仅产生有趣模式,优化了关联的挖掘。