【摘 要】
:
近年来,数据库技术得到了突飞猛进的发展,特别是关系数据库的应用,导致了海量的数据、有限的信息应用问题,引起了广大学者的重视,数据挖掘技术从上世纪九十年代应运而生,被用
论文部分内容阅读
近年来,数据库技术得到了突飞猛进的发展,特别是关系数据库的应用,导致了海量的数据、有限的信息应用问题,引起了广大学者的重视,数据挖掘技术从上世纪九十年代应运而生,被用来解决这些问题。经过近二十年的发展,数据挖掘技术集多学科的基础知识,不断发展成熟起来,目前已被广泛应用在销售业、银行业、电信业、医疗卫生等行业上。
本文研究重点是数据挖掘中的关联规则挖掘,主要是总结和分析了现有的关联规则挖掘算法在医疗数据挖掘中的不足,特别是Apriori和FP-Growch两个经典算法的缺点,并分别给出了相应的改进思路,最后把改进的Apriori算法应用到了医疗数据的关联规则挖掘上,挖掘出了针对乳腺癌治疗有价值的信息。论文的主要创新点如下:
首先,针对Apriori算法在挖掘医疗数据中的缺点,使用哈希二次探测技术进行了算法改造,此方法使用垂直数据格式来存储数据库,可扩展性的大小与数据库的类型无关。通过二次探测(HBFI-QP)技术来计算哈希函数,克服了哈希冲突和主要的聚类问题,避免了数据库的多次扫描,使用较少的内存和时间来产生频繁项集,可以实现快速有效地访问数据,最后通过使用现实中的医疗数据验证了该算法效率优于Apriori算法。
其次,针对FP-Growth算法在医疗数据挖掘中存在挖掘关联规则的质量差,考虑因素过于单一,实用性比较差,生成的频繁模式过多,不能把数量和关联权重同时考虑在内的实际应用问题,提出了基于实用FP-trees树的挖掘加权实用项集的算法,提高了实用性项集的挖掘效率,避免了大量候选集的产生,从而显著减少了搜索空间,提高了关联规则挖掘的质量,并使用现实中的医疗数据验证了该算法的有效性。
其他文献
当前,机器学习的相关理论和应用研究遍地开花。传统机器学习常用的两种方法为无监督学习和有监督学习。然而我们也应该看到,无监督学习的特点和优势是不需要训练样本,但无监
随着多媒体技术与网络技术的快速发展,各种多媒体资源得以在互联网上广泛地传播与共享,这给人们的生活带来了极大的便利,但同时,由于数字产品容易被不诚实的消费者非法复制、修改
近几年来,“云计算”技术的战略优势和商业价值引起了大量研究者和企业重视,并投入该项研究。但是,对于云服务而言,目前其策略控制和实施的研究和实践还较少。本文研究支持异
针对关键动设备的状态监测和故障诊断系统在保障工业生产安全、提高设备使用率、延长设备使用寿命方面有着非常重要的意义。随着监测诊断系统的推广和广泛应用,工业生产过程
多媒体网络对QoS实时控制和保证提出了更高的标准和要求。传统上,研究者基于最坏情况执行时间和处理器利用率等执行可调度性分析。这样的可调度性分析结论能满足强实时QoS保
在对图像的研究和应用中,人们通常只对图像中的某些部分感兴趣,图像分割就是把图像分成各具特点的区域并且提取出感兴趣的目标的技术和过程,这些特点可以是灰度、颜色、纹理
随着世界经济一体化的进展,各国之间互联网交流更为广泛、频繁,互联网信息的多语种特点,给交流带来的语言障碍日显突出。为解决语言障碍问题,跨语言信息检索技术应运而生。目
生物质能作为一种新型的能源,具有传统能源无可比拟的优势,它清洁、高效、可再生。秸秆作为生物质燃料的代表性一员,在作为农业大国的我国大量存在,直没有得到有效地利用,被随意处置,甚至就地焚烧,既造成了资源的极大浪费,也对环境构成了巨大危害。本文首先介绍了所用到的相关知识,即供应链管理理论和博弈论知识。通过生物质燃料发电这一切入点,把涉及到的三方即农户、电厂、政府作为课题的研究对象,采用博弈论的知识,借
当今,随着科学技术的不断深入发展,不同学科之间的交叉和技术渗透成为科研人员研究的热点,因为对于客观世界中的某些具有挑战性的问题只凭借单一的技术是很难解决的,往往需要
20世纪80年代以来,随着计算机、通讯技术的迅速发展,以及各种数字化、体积小、重量轻、探测精度高的新型传感器的不断面世,无人机(Unmanned Aerial Vehicle,简称UAV)的性能有