基于等价类的大型数据库频繁项集挖掘算法

来源 :新型工业化 | 被引量 : 0次 | 上传用户:hgra_1982
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
挖掘频繁项集是数据挖掘中最基本的问题之一,而大型数据库庞大的数据使得传统的频繁模式挖掘算法难以适用。针对大型数据库的特点,在分析FP-growth算法的基础上,提出一种基于等价类的大型数据库频繁模式挖掘算法EFP-growth(Equivalent Classes Frequent Patterns-Growth)算法。EFP-growth算法利用项集等价类将关联规则挖掘的项集分成互不相交的子空间的性质,将一个大型数据库分解成多个投影数据库,依次在每一个投影数据库上进行约束频繁项集挖掘。算法尤其适合支持度较小时的大型数据库的挖掘。分析和实验表明EFP-growth算法在挖掘大型数据库时时间和空间的性能上均优于FP-growth算法。而且,随着数据库规模的增大,EFP-growth算法具有更明显的优势。“,”Finding frequent itemsets is one of the most basic problems in data mining. The large amounts of data make the traditional algorithms for frequent patterns mining difficult to extend to large databases. According to characteristic of large databases, inspired by the fact that the FP-growth provides an effective algorithm, a new EFP-growth for mining frequent patterns in large databases is proposed. Based on the characteristic of equivalent classes , which separate item sets of association rules into many subsets , proposed algorithm divides a large database into many projection subsets and carries out constrained frequent. Experiments show that the algorithm has accelerated the mining speed and the performance of space scalability is superior to the FP-growth algorithm. Moreover, the algorithm has a very good time and space scalability with the increasing size of database.
其他文献
7月14日,18元/斤,12653斤加州鲈新鱼!第二年养加州鲈的黎老板看着自己今天的出鱼数据满是笑容.rn走进黎老板的养殖场,可以看见热火朝天的抓鱼情景,众人将一条条体型修长、背
期刊
旨在运用分子生物学手段研究H-FABP基因遗传多态性与巴什拜羊生长性状的关系,为今后用分子标记辅助育种方法提高巴什拜羊生长性状提供科学依据.以300只巴什拜周岁母羊为研究
在中国,有一些词语极具时代内涵,比如“群众”、“人民”等等,还有“工会”。曾几何时,能进工会,当上个工会干部,是企业中多少有点文艺爱好的青年的强烈愿望。上个世纪70年
“这里有一个说法,新环村是宝马村,昭信村是奥迪村,还有数不完的奔驰满街跑.”何老板自豪地告诉笔者,因为一条鱼,豪车、洋楼、鳞次栉比的鱼塘以及永不停歇的增氧机成了这个南
期刊
虚实遮挡效果的实现是增强现实技术中的重点和难点。增强现实技术在遥操作机器人等不同领域的应用对虚实遮挡处理的实时性、准确性和对不同环境的适应性提出了更高的要求。本
以胡萝卜、白萝卜、白萝卜叶、牛蒡、香菇五种有不同颜色的蔬菜及绿茶为主要原料,通过单因子试验、正交试验等方法,探讨了工艺步骤和添加剂等不同因素对五色蔬菜茶饮料色泽、
期刊
在莫斯科的全俄展览中心召开了国际论坛大会.这次大会为俄罗斯各地区的消防、救生专家、实践家及外国与会者提供了一个全新的机会,使他们能够了解消防技术产品领域中现代化的
利用时域有限差分法对电磁脉冲模拟器辐射天线产生的电磁场进行数值模拟,在分析卷积完全匹配层(CPML,convolutional perfectly matched layer)原理的基础上,分别选用CPML和修正的完全匹配层(MPML)两种吸收边界条件进行对比分析,仿真结果表明CPML不仅可以吸收传播模,而且还能够有效吸收低频凋落波,获得了很好的截断效果,展示了其在电磁脉冲模拟器数值模拟中的应用前
珠三角的中山、珠海、江门等南美白对虾养殖核心区是中国养虾业最高水平的地区之一,然而今年的整体成功率只有区区不到3成,为本来就低迷的养虾业又抹上了一点悲剧色彩.
期刊