加权频繁模式挖掘算法研究

来源 :江南大学 | 被引量 : 7次 | 上传用户:xqdd520cn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术尤其是网络技术的快速发展,人们收集、存储和传输数据的能力不断提高,各类应用领域的数据量大量产生,数据挖掘日益成为数据分析和决策支持的一种重要工具。频繁模式挖掘是数据挖掘领域内的一个基本问题,它被广泛应用到多种领域和挖掘任务中,例如Web挖掘、零售业数据挖掘、科学研究、关联规则挖掘、序列模式挖掘、路径分析等。在传统的频繁模式挖掘方法中,事务数据库(Transaction Database,TDB)中的每个项都被看成是同等重要的,而在实际应用中,每个项通常具有不同的重要性。为解决这个问题,本文研究了加权频繁模式挖掘(Weighted Frequent Pattern Mining,WFPM)问题,其主要特征就是在挖掘过程中通过给TDB中各个项目赋予不同的权值来体现它们的重要性不同。经过十几年的研究,已经奠定了较成熟的频繁模式挖掘算法理论基础,但对于加权频繁模式挖掘算法及其应用的研究工作尚处在初始阶段,值得深入研究和探讨。在加权事例中,加权支持度度量不再满足向下闭合特性(亦称反单调性(Antimonotonicity)),传统的频繁模式挖掘算法已经不再适用,因此在加权频繁模式算法中,研究的主要关注点是如何使加权支持度或兴趣度度量满足向下闭合特性(Downward Closure Property),以便高效地剪枝搜索空间。本文主要以基于Web频繁遍历路径模式挖掘和零售业数据挖掘为实例,详细阐述了基于加权有向图(Weighted Directed Graph,WDG)的加权频繁遍历模式挖掘和加权强相关频繁模式挖掘的有关思想。图遍历模式挖掘一直是数据挖掘研究的热点之一,图及其遍历可广泛地模拟现实世界的多种数据访问形式,比较有代表性的实例就是Web路径访问,Web结构可被抽象为一个加权有向图:顶点代表网页或站点,有向边代表网页间的网页或站点间的超级链接,权值代表Web结构元素的不同重要性,然而传统的遍历模式挖掘算法仅仅考虑了非加权的遍历模式挖掘。为解决加权遍历模式挖掘问题,本文主要从以下几个方面做了深入研究:归纳了加权频繁遍历模式挖掘(Weighted Frequent Traversai Pattern Mining,WFTPM)的种类,将Web加权频繁遍历模式挖掘,从用户类型角度分为个体加权频繁遍历模式挖掘(IndividualWFTPM,IWFTPM)和整体加权频繁遍历模式挖掘(Holistic WFTPM,HWFTPM);从采取的挖掘方法角度分为普通遍历模式挖掘和序列遍历模式挖掘。提出了加权有向图模型,总结了加权有向图的种类,提出了两类加权有向图——顶点加权有向图(Vertex-Weighted Directed Graph,VWDG)和边加权有向图(Edge-Weighted Directed Graph,EWDG),并详细阐述了两类WDG间的转换方法,简化了基于加权有向图的频繁遍历模式挖掘问题,完善了基于图遍历的模式挖掘问题的理论基础。基于加权有向图模型,本文做了以下几方面工作。针对挖掘IWFTPM问题,提出了加权遍历模式间的一种新颖特性——可拓展特性,把对候选模式的剪枝问题转化为判断候选模式的可扩展性问题。基于加权模式间的可拓展特性,提出了一种基于加权有向图结构的频繁遍历模式挖掘算法——WFTPMiner(Weighted Frequent Traversal PatternMiner)算法,并提出了实现该算法的两种策略——EGTG(Evaluated by Global Topology of Graph)策略和ELTG(Evaluated by Local Topology of Graph)策略。当最小支持度阈值较小时,用算法WFTPMiner挖掘加权频繁模式将导致效率低下,为克服以上不足,提出了一种修订的加权支持度表示法,然后利用加权FP-tree模式增长方法,提出了两种高效的基于加权有向图的频繁遍历模式挖掘算法:CWFTPMiner(Closed Weighted Frequent TraversalPattern Miner)和WTMaxMiner(Weighted Traversal-based Maximal frequent pattern Miner),前者用于挖掘闭合加权频繁遍历模式,后者用于挖掘最大加权频繁遍历模式。此外,在实现这两种算法的过程中,详细分析了闭合约束和加权约束的不同结合顺序可能造成的信息丢失现象,提出了两种约束的正确结合顺序。对加权FP-tree模式增长算法的弊端和遍历路径中相关项目的连续性特点,把遍历模式看作是序列模式,提出了一种基于图遍历的加权序列模式挖掘算法WTSPMiner(Weighted Traversal-basedSequential Pattern Miner),该算法采用一种改进的加权前缀投影模式增长方法,运用分而治之策略,把挖掘原来加权序列数据库的任务分解成一组挖掘局部加权投影数据库的小任务,通过将加权约束添加到挖掘过程中,实现加权频繁序列遍历模式的挖掘。为解决HWFTP挖掘问题,提出了一种挖掘基于统计理论的加权频繁遍历模式挖掘算法SWFTPMiner(Statistical theory-based Weighted Frequent Traversal Pattern Miner),该算法利用统计理论中的置信度概念,首先清除掉原始遍历数据库T中带有噪声权值的“异常点”(Outlier),从而得到能反映整体绝大多数用户遍历行为的修订加权有向图G_r及遍历数据库T_r,然后具体提出了两种从修订的T_r中挖掘WFTPs的策略方法——逐层挖掘策略和分而治之挖掘策略。此外,本文以零售业为例,提出了一种加权强相关频繁模式挖掘算法WHFPMiner(WeightedHighly-correlated Frequent Pattern Miner),在算法中,提出了一种新的目标兴趣度度量标准——加权h-置信度,通过采用修订的加权支持度,证明了加权h-置信度具有反单调性和交叉加权支持性,最终基于加权FP-tree模式增长方法,利用加权h-置信度的两种特性快速地挖掘出包含有相似加权支持度水平的项目的加权频繁模式。广泛的实验性能分析表明,本文提出的算法是高效的和可伸缩的,能够有效的完成各自的加权频繁挖掘任务。更重要的是,本文中提到的很多算法具有广阔的应用领域,例如,基于加权有向图的频繁遍历模式挖掘算法可以很方便地应用到很多能够被建模为加权有向图的实际应用中。
其他文献
图像复原方法的研究具有现实意义和重要应用价值。现有的散焦图像复原方法研究都针对于具有圆形光圈的光学系统。随着具有可变光圈(一般是正多边形)的光学系统在各行各业得到
目的探讨血清CA125与CA153联合检测对子宫内膜癌的诊断价值。方法选取住院部2016年7月~2016年12月收治25例子宫内膜癌患者作为研究对象,并同期选择25例子宫肌瘤患者作为研究对
基于大数据技术,探讨大数据的特征与应用优势,分析高校档案管理的整体需求,并对大数据时代下高校档案管理面临的挑战以及数字化档案资源管理的策略进行深入的研究。
奥运对旅游城市规划具有极其显著的推动作用,本文将总结北京奥运在城市商业服务业、环境保护、城社会公共服务、区域发展、统筹城乡经济、精神文明建设等诸方面的具体措施和整
视觉是人类从世界中获取信息和经验的主要方式。多年以来,科学家和工程师们一直都致力于提高图像质量。近来数码相机的普及提升了图像获取的质量,同时也产生了大量的图像和照
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
由于数字媒体内容具备易于无损复制、分发等特性,借助数字技术和互联网随意批量复制和发布受知识产权保护的数字媒体内容的现象普遍存在。安全有效的数字媒体内容保护方案已
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
会议
在计算机图形学中一个重要内容是渲染出具有真实感效果的视图。光照明模型是生成真实感图形的基础。计算并绘制几何模型表面点的颜色,需要指定该点反射属性、法向量、光源位