论文部分内容阅读
对数据进行挖掘应该以数据分析以及数据理解为基础,数据挖掘是一种将数据集合内部所蕴含知识揭示出来的一种技术。现在来看,数据挖掘将会成为今后信息技术应用的最主要的目标。无论在科学研究还是商业应用领域,数据挖掘都取得了优异的成绩。但与此同时,伴随着数据库的规模逐渐的增大,基于关联规则的数据挖掘不但要求效率高、实用性强,同时还要求挖掘出来的信息更加精确。基于以上的原因,应该针对当前已经研究出的基于关联规则的数据挖掘算法加以改进,另外也可以另外研究出一种全新的数据挖掘算法。随着信息技术应用的领域越来越广泛,关系数据库的应用也不断深入,使得在关系数据库当中进行关联规则的数据挖掘变得越来越紧迫。在一个关系数据库当中挖掘出的关联规则,能够直接反映出各个事件之间的相互依存的关系,并且形成为知识。在大量的相关数据集合当中,挖掘出决策者感兴趣关联的知识,决策者可以利用这些知识实现科学决策。本文在传统的Apriori算法的基础上,提出了一种新的在关系数据库中挖掘关联规则的算法。该算法只需扫描一次数据库即可得到频繁项集,并通过非频繁项集来减少候选项集的生成,从而提高了算法的运行效率,同时也降低了内存的负荷。但是当信息技术不断的向前发展的时候,数据挖掘虽然在比较深层次的数据应用当中发挥出了很大的作用,但是也暴露出了一些问题,最主要的就是隐私保护方面的问题。在当前数据挖掘过程中进行隐私保护的研究非常重要,对其进行研究的最终目的就是能够在对原始数据不精确访问的前提下,能够获取到比较准确的数据模型以及分析结果。出于考虑到隐私数据保护程度的提高以及提升数据挖掘的准确程度,在本课题当中具体提出了一种相对比较简单的处理办法,也就是针对事务数据库进行事务处理的方法。这种方法的根本思路是将那些蕴含有敏感项目的关联规则隐藏起来,通过对相关事务进行处理,来实现隐含这些关联规则。这种方法首先对数据库进行数据预处理,将关系数据库转化为事务数据库,然后对关系数据库进行频繁项目集的挖掘,得到关联规则,最后将那些包含有敏感数据的关联规则隐藏起来,才能够对隐私信息实现充分保护。通过在论文当中实际的分析以及和实验证明,这个算法不仅提高了关联规则挖掘的运算效率,而且达到了隐藏包含敏感项目的关联规则的目的。医疗管理信息系统被应用到医疗行业中,可以有效的促进信息化在医疗机构中的应用。医疗机构采用电子病历,可以使得在医疗机构的数据库当中,所承载的数据量不断增加。数据库中所包含的这些医疗数据对于医生进行疾病诊断与治疗,对于医学专家对于疾病的研究都是很有帮助的,对他们进行分析及处理,意义非常大。当前在绝大多数的医院当中,对于数据的加工及处理仅仅限制在数据的增加、删除、修改以及检索,没有实现必要的数据分析。数据挖掘技术应用到HIS系统中,我们可以分析疾病的发展趋势及治疗方法,通过对其分析,就可以在处理之前首先进行预测,然后根据预测结果有效的分配医院的现有资源。