不确定数据Topk高期望权香项集挖掘研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:llyljl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技日新月异的进步,各种各样的数据充斥着生产生活的各个领域,如何有效地获取数据中的精华并运用到各行各业中去,成为科研人员关注的焦点。基于这一实际需求,数据挖掘技术应运而生。关联规则挖掘作为数据挖掘领域的重要分支也一直受到科研人员的重视。通过生成关联规则获得项集之间隐藏的关联,对于决策的提出有十分有效的指导意义。  频繁项集的获取是生成关联规则最关键的步骤,针对频繁项集挖掘的科研工作主要从两个方面展开:应用扩展和算法效率提升。前者发展出了最大频繁项集,高效益项集,概率频繁项集等等;后者主要是针对各类频繁项集的挖掘算法提出时间空间上的改进。  本文着眼于频繁项集挖掘,从传统数据到不确定数据以及数据流,详细回顾了经典的挖掘算法及其相应改进方法。在深入了解与学习这些科研成果的同时,发现已有的不确定数据挖掘算法虽然考虑了项目的出现概率,但是忽略了项目本身重要程度,导致出现概率比小,但是含有重要项目的项集被舍弃,可能使挖掘结果丢失重要信息。另外考虑到频繁项集挖掘时阈值选取的实际困难,本文从应用扩展的角度出发,在概率频繁项集的基础上,提出了高期望权重项集(HEWIs)的Topk挖掘,有效地解决了这两个问题。具体的内容有:  (1)结合不确定数据的频繁项集挖掘,给出了Topk HEWIs挖掘的概念与意义,并在经典概率频繁项集挖掘算法MBP和UF-Growth的基础上,提出了针对Topk HEWIs挖掘的算法,TKWMB和TKWUG。两个算法各自代表一类算法,从层次递进和模式增长两种挖掘方向出发,实现了Topk HEWIs的挖掘。本文通过在多个数据集上运行两种算法,对比了算法的效率差异。实验表明TKWUG算法在各类数据集上的运行都比较稳定,随着k选取值的改变,运行时间呈正比变化,且在稀疏集上运行比较高效;TKWMB算法随k值变化起伏比较剧烈,在稀疏集上虽然运行速度快,但是却容易内存溢出。  (2)考虑到近年数据流的大趋势,本文选取平稳性较好的TKWUG算法扩展出TWUS完成了数据流的Topk HEWIs挖掘。本文考虑了数据流单次单向无限的特性,在滑动窗口技术的基础上,结合了TKWUG和CPS算法的特性,给出了TWUS算法的实现过程。TWUS算法将当前窗口内的数据维护到WUSTree上压缩存储,通过增量式更新树结构与对应的索引头表体现数据流动。算法采取局部更新以及延时处理的方式,有效且高效的响应用户的挖掘请求,实现了Topk HEWIs的数据流挖掘。
其他文献
无障碍检测是保障网页内容无障碍访问的基础。在对政府网站的检测过程中,我们发现曾经达到无障碍访问要求的网站中,部分网页新增了存在障碍的内容,例如图片没有替代文本。因此,为
随着科技的进步、信息化的发展、气象研究技术的提高,气象领域积累的数据量与日俱增。如何从海量的气象数据中发现有价值的信息是气象科研人员的一项重要任务。气象信息与人
近年来,云计算得到了学术界和工业界的广泛关注,作为一种新颖的软件提供方式,软件即服务(SaaS)的模式正变得日渐流行。随着用户个性化多样化需求越来越多,面向多租户的网络应
随着Web应用的蓬勃发展,现实世界中存在大量的对象,它们相互之间存在各种各样的交互关系,形成一个庞大的、相互联系的复杂网络,我们称这个网络为信息网络。现实中,信息网络无
随着计算机技术和互联网的迅猛发展,“三网融合”的发展趋势日益明朗。人们对网络传输数据需求的越来越多样化,使得分组交换网络的负载急剧增加,互联网正面临着十分严重的技
近几十年来,多媒体技术得到了飞速的发展,人们对交互式的音视频服务的需求也日益提高,这也推动了视频对象分割技术的进步。到目前为止,已经有近千种的分割算法,并且新的理论
随着时延容忍网络在现实生活中不断得到应用,其主流路由策略设计不足导致的性能瓶颈日益突出。理想的路由策略应该在能耗较低的前提下使时延容忍网络的传输性能达到最优,然而
动物机器人在运动的灵活性、能源供给、环境适应性等方面相比传统机器人具有很大的优势,在环境侦查和灾难搜救等方面的应用前景十分广阔,然而现实中将动物机器人用于未知环境探
随着电子纸显示技术的推广与应用,我们对电子纸已不再陌生,电子纸不仅是一种纸的替代品,而且是具有很大发展潜力的未来显示设备,电子纸显示技术分为很多类型,目前市面上最具代表性