【摘 要】
:
基因表达数据中隐藏着许多的基因功能和基因调控网络信息,数据挖掘可以帮助生物学家快速发现这些有价值的信息。基因表达数据中的频繁闭合模式的挖掘是其中一种重要的挖掘方
论文部分内容阅读
基因表达数据中隐藏着许多的基因功能和基因调控网络信息,数据挖掘可以帮助生物学家快速发现这些有价值的信息。基因表达数据中的频繁闭合模式的挖掘是其中一种重要的挖掘方法。因此近些年来,频繁闭项集的挖掘被人们广泛关注和研究。由于挖掘频繁项集和频繁闭项集所需要的最小支持度和最小长度往往比较难以确定,因此挖掘top-k频繁闭项集被提出并被广泛研究。由于挖掘top-k频繁闭项集的算法比较复杂,而且涉及的数据量比较大,top-k频繁闭项集的挖掘成为一个研究热点和难点。当前虽然存在很多频繁闭项集的挖掘算法,但它们或者会生成很多支持度小于最终的最小支持度的频繁闭项集,或者会生成很多长度小于最小长度的频繁闭项集。因此当前的算法都不是最高效的。本文提出了一种新的算法。首先通过在fp-tree上采用best first search的方法来挖掘,从而避免生成长度小于最小长度限制的频繁闭项集和支持度小于最终的最小支持度的频繁闭项集,从而提高算法的效率。然后在检查闭合情况时采用哈希的方法来一次性检查一个支持度的所有节点。通过计算,采用哈希的方法来检查闭合情况的时间复杂度明显优于其他算法。在检查完闭合情况后,同一支持度节点的挖掘是相互独立的,可以通过并行的方法来挖掘。本文最后介绍了实验数据和实验结果,实验结果表明改进后的算法不管在改变K值、还是改变最小长度或者改变数据密度的情况下效率都优于现存算法。
其他文献
随着数据量的爆炸式增长,传统的关系型数据库管理系统已经无法应对大数据时代数据处理的要求,人们迫切的需要一种能够对海量数据进行存储和运算的工具,Hadoop在这种环境下应
随着应急领域的信息化建设不断发展,全国各地政府都建立了各种应急信息系统,在应急管理和事件突发后的应急响应过程中发挥了重要的保障作用。然而在这些信息系统的建设中,存
嵌入式Web服务器是随着嵌入式系统技术的不断发展与因特网技术互相结合而产生的。与传统的服务器相比,嵌入式Web服务器具有结构简单、体积小、可靠性强以及灵活方便的特点。
随着智能移动设备和互联网走进千家万户,不同风格的人脸照片图像在专业领域以及人们日常生活中都十分常见。例如照片风格和素描风格的人脸图像,可见光和近红外风格人脸图像等
网络编码(Network Coding)是网络通信领域的一项前沿科技,网络编码理论一经提出,就引起了学术界、工业界广泛的关注。网络编码是一种融合编码和路由的信息交换技术,在传统存
随着科学技术的发展,非线性数学具有强大的生命力.有理插值与逼近方法作为非线性数学的主要分支之一,已在实际应用中显示出巨大优势和开发潜力.连分式插值函数与Padé逼近是
高分辨率的图像所呈现的图像细节更为丰富,表达信息的能力更强,但是在实际应用中,直接捕获的图像由于成像设备及采集环境的限制,往往是低质的,存在模糊、变形、含噪声等。提
三维场景模型构建技术在三维地理信息系统的开发的应用前景十分广泛,如构建城市交通调度系统、地质灾害的定位、数字地图等领域,相比于二维地理信息系统不仅能给人以直观的、
图像纹理的方向性度量是近年来国内外一个比较热门的研究领域,在图像处理、图像检索、计算机视觉、模式识别及计算机图形学等众多领域中都发挥着非常重要的作用,有着广阔的应
作为一种新型的具有宽带无线网络架构的网络,无线MESH网是由移动Ad Hoc网络发展而来,具有自组织和自愈等特性。由于WMN在灵活组网、提高网络覆盖率、增加网络容量、减少前期