论文部分内容阅读
本文研究了数据挖掘中频繁模式,聚类,分类算法,并提出了能够适应生物信息学数据和大数据量的频繁模式,聚类,分类挖掘算法。同时,提出了一种保存挖掘结果的缓存机制,提高了挖掘系统的响应速度。研究工作的创新之处主要表现在如下四个方面:(1)针对已有频繁模式算法无法对具有行少列多的二维表,提出了一种采用行枚举及剪枝策略的新的挖掘频繁闭合模式的算法。(2)提出一种基于网格和密度的新聚类算法。(3)提出一种新的癌症基因分类算法,采用高效类别树构造策略,降低了树高,加速了分类过程。同时,在树节点上选出的基因子集具有更好的针对性,结合类别树的层次关系,提供了更强的生物学意义。(4)本文提出一种语义缓存机制,从而减少挖掘过程的时间开销,提高挖掘系统的响应速度。