论文部分内容阅读
临床检验信息系统(Clinic Laboratory Information System,CLIS)是医院信息系统的一个重要组成部分。它基于数据库,利用网络和计算机实现软件和仪器的无缝连接,模拟检验科的工作流程,实现检验信息的电子化和检验信息管理自动化。 临床检验信息系统的应用产生了大量的数据,采用数据挖掘方法对这些数据进行分析开采,发现有用知识,是目前亟待开展的工作。但目前国内尚无这方面的报道,国际上也处于探索阶段。 本文结合糖耐量试验和血细胞计数两项检验数据,详述了在检验信息系统基础上进行的数据预处理,数据挖掘和知识发现的全过程。并重点阐述了关联规则挖掘和聚类分析两种数据挖掘方法在实际中的应用。 本文重点介绍了对糖耐量试验数据的预处理,以及关联规则挖掘在糖尿病诊断方面的应用。 糖耐量试验数据来自医院信息系统中的病人基本信息,从检验信息系统中提取的糖耐量试验数据,以及从一些调查表中得到其他辅助信息。在填补了空缺值、对定性数据量化处理、属性范围变换、统一量纲、以及删除了无关孤立点之后,文中采用SQLSERVER DTS将其引入数据仓库,以SQLSERVER ANALYSIS MANAGER为平台将数据集成,构造多维数据立方体。 为提高数据挖掘的效率,必须针对主题对数据属性进行维规约,排除无关属性,保留相关属性。维规约采用贪心算法,逐步向前选择有用属性。在属性的相关性分析中采用了熵增益技术,设定最小信息增益,引入新的属性后计算熵增益值,和最小信息增益阈值比较,来决定属性的有用性。 关联规则挖掘是数据挖掘中的重要应用之一。本文采用了经典的Apriori算法,并且在原有关联规则中支持度和可信度的概念基础上,引入了兴趣度概念,