图数据库频繁模式挖掘关键技术研究

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:yanhe1000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从图数据库挖掘频繁模式在化学信息学、计算生物学、WEB信息管理、社会网络分析等领域有着广泛的应用。因此本文重点研究了从图数据库中挖掘频繁模式的关键技术,并针对频繁模式挖掘所面临的效率瓶颈、结果集庞大以及高复杂、冗余性等问题,在本文中提出了基于随机化挖掘极大频繁子图的方法RMPM、挖掘具有代表性频繁子图的算法FRSM、InRSM。本文的主要研究成果有:1.随机化方法在挖掘海量数据集时非常高效,但是因为随机性,会造成结果的重复发现,势必造成很多重复和无用的子图同构计算。本文提出的基于随机化挖掘极大频繁子图的方法RMPM,通过对已挖掘到的结果建立索引,提高了随机算法的效率。在真实和模拟数据集上的实验结果也证实了RMPM算法是高效、可伸缩的。本文提出的随机算法的思想是通用的,可以应用于各种各样的模式,比如自由树、项集等,在真实数据集上挖掘极大频繁自由树的实验结果也证实了RMPM算法是通用的。2.为了压缩频繁模式集合,挖掘出更小、更有代表性的频繁模式集合,本文提出了挖掘具有代表性频繁模式的算法FRSM,算法第一步采用本文提出的效率更高的RMPM算法作为频繁模式挖掘算法,第二步在RMPM结果集上聚类,在聚类时,综合考虑频繁子图在事务空间上的相似性和模式空间上的相似性,使得聚类的质量更好,获得的模式更具代表性。在大量的实验上也证明了FRSM算法所得到的代表模式集合比不考虑或只考虑模式在事务空间上的相似性的聚类所得到的模式更具代表性。3.本文也提出直接从图数据库中挖掘代表模式集合的算法InRSM,它比两步算法FRSM更加高效,InRSM算法同样考虑了模式在事务空间上和模式空间上的相似性,大量的实验也证明了InRSM算法是高效的和可伸缩的。
其他文献
虚拟实验是一种基于Web技术、虚拟仿真技术构建的实验教学系统,是现有各种实验室的数字化和虚拟化。与传统试验相比,虚拟实验可以有效的缓解许多高校在实验经费、场地、师资
比较基因组学是生物信息学的一个重要分支,计算两个基因组之间的量化距离是比较基因组学的基本问题,常应用于构建物种进化树、探索基因功能、分析疾病致病原理等实践中。基因
随着配电网工程中信息化技术的逐步深入,信息安全问题逐渐凸显。目前,配电终端与配电网数据交互中主要采用基于SM2算法的单向身份认证技术,且大部分数据交互以明文方式进行。因此,如何保证终端设备与配电网数据交互的安全性,已经成为配电网建设过程中迫切需要解决的问题。实现配电终端与配电网安全数据交互需要解决两方面问题:一是配电终端自身安全;二是数据通信通道安全。终端自身安全保证了接入源的安全,数据通信通道安
随着信息技术的迅猛发展和广泛应用,计算机网络已经遍布人们社会生活的各个角落,成为人们日常生活中不可或缺的一部分。逐步拓展的计算机网络业务,以及各种业务对网络需求不
增强现实(Augmented Reality,简称AR),也被称之为混合现实。它通过电脑技术,将虚拟的信息应用到真实世界,真实的环境和虚拟的物体实时地叠加到了同一个画面或空间同时存在。
蜂窝网络是一种经济、灵活且应用范围广的通信技术。从最初以声音通讯为主的服务,到如今的提供的移动数据服务,其经历了长足的发展。然而,相较于对传输质量日益增长的需求,蜂窝无
随着互联网的普及、软件应用技术和模式的快速发展,软件已呈网络化、平台化和服务化得发展趋势。其中,SaaS(Software as a Service)服务是一种新型的软件服务模式,凭借其按需
生物信息学是20世纪末随着生物技术的提高和生物学数据的积累而发展起来的一个新的领域,是一门利用计算机工具和技术对生物系统的问题和规律进行研究的学科。目前,生物信息学
病历是对病人患病信息及医生诊疗和处理过程的记录,在就医过程中起到相当重要的作用。长期以来,传统病历均是纸质病历,存在易篡改、难保存等缺点。当今信息化已渗透各行各业,纸质病历也开始逐渐被电子病历(EMR)所取代。医院信息化建设是我国“十二五”期间工作重点之一,作为其核心的电子病历建设将是重中之重。电子病历集合了病人的各种信息,其安全性十分重要,因此建立一个安全可行的电子病历安全系统具体十分重要的意义
基于策略的网络管理由于具有灵活、易用、自动化等特点,在网络安全管理领域得到了广泛的运用。策略是由网络管理员配置的约束规则集,用于保护系统安全。对当前网络安全策略模