频繁和高效用项集挖掘算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:rqcai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从事务数据库中挖掘有意义的项集已经被研究超过10年。频繁项集挖掘主要挖掘出那些在事务数据库中大量出现的项集,这些项集之间存在很强的联系,可以为决策者提供有效信息,从而可以制定更好的营销策略。高效用项集挖掘则考虑了事务在效用上的不同,以及用户最终所关心的目标,通过选择不同的效用函数,能够使得挖掘得到的项集的组合更具有针对性。实际上单独使用这两种衡量方式都有各自的局限性,比如出现次数很高的项集可能对商家最终需要达成的目标贡献较小,虽然这些项集之间联系很强,但对最终的决策不具有很大的参考价值。而效用值很高的项集,出现次数可能很低,项集之间联系很弱。因此将这些项集推荐给用户可能没有太大的意义。在本文中,我们将这两种衡量标准综合起来考虑,希望找到那些高质量的项集,即那些出现次数多且效用值高的项集。另外,在所有这些高质量的项集中,用户往往只对那些最重要的项集感兴趣,所以我们将问题形式化表述为挖掘top-k个频繁和高效用项集,即在对支持度和相对效用值做加权和得到质量值(quality)后,取k个最高质量值的项集推荐给用户。我们提出了新的算法FHIMA,它采用PrefixSpan算法的思想,挖掘时能避免产生非频繁的候选项集。同时综合利用支持度和效用值的特性,设计出新的计算质量值上界的方法,大大减少了搜索空间。最后,我们在不同的数据集上验证了FHIMA算法的效率。实验结果证明了FHIMA算法能提高算法的效率,同时证明了紧的上界值在效率上要优于松的上界值。
其他文献
随着网络以及多媒体技术的迅速发展,呈指数级增长的数字视频与人们有限的时间产生了矛盾。于是将长时间的视频提取成简短的视频或者画面,但是又不丢失原视频主要内容的视频摘
信息隐藏技术是近些年来信息安全领域出现的一种新技术,该技术对于隐秘通信有着重要的意义。相对于版权保护领域,信息隐藏技术在音频隐秘通信的研究才刚刚开始,必须要考虑到
随着Web技术的发展,越来越多的企业应用被开发出来,但是目前存在的很多企业应用由于市场效应、技术等原因缺乏合理的系统架构支持和有效的维护文档,给系统的维护和升级带来了很
随着计算机网络的不断发展和Internet的广泛应用,人们可以共享世界范围内的资源和信息。为方便共享和管理纷繁复杂的网络资源和信息,目录服务技术应运而生。轻量级目录访问协
随着计算机研究领域突飞猛进的发展,由此产生的科技文献呈爆炸性增长。面对浩如烟海的资源,用户目前无法直接查询出他所关心的研究领域发展历程及当前该领域的研究热点。而依
面向服务的体系结构(SOA)作为一种新的软件架构方法,已成为企业实施信息化集成的首选解决方案。但SOA所具有的动态性、开放性特点,使其面临的安全问题更加突出。服务请求者和
随着视频监控技术的发展,嵌入式视频监控系统以其直观、方便和内容丰富等特点,日益受到人们的重视和关注,被广泛应用于众多场合。武汉精伦电子股份公司的四路网络视频监控服
网络等信息技术的迅速发展和广泛应用产生了大量的数据流,如:超市交易记录、网络搜索请求、电信通话记录等。这些数据流中隐含着丰富的有价值的知识亟待挖掘。分类算法研究作
随机局部搜索算法是一种解决计算机科学和运筹学领域中组合最优化问题的元启发式方法。近年来,由于其简单、高效的特点而得到越来越多的应用。本论文中,我们对随机局部搜索算
Web服务将程序封装成单个实体并发布到网络上以供其他程序使用的功能,可以使企业和个人迅速且廉价地向网络用户提供服务。Web服务具有十分广阔的市场前景。随着Web应用的迅速