论文部分内容阅读
目前医学研究人员进行数据分析的主要流程存在诸多弊端:(1)特征挑选的过程主观性强自动化程度低,难以挑选出最优组合特征;(2)对于非线性公式,难以做到得出准确的分类回归公式;(3)仅使用SPSS等统计软件来验证,难以证实决策模型的准确性。针对存在的上述问题,开发出一个用于医学数据分析的应用软件DataAnalysis。其主要功能有:(1)数据预处理:包括数据离散化、缺失数据处理、数据类型转换等功能;(2)数据可视化:能够对原始数据和处理后的数据进行简单的二维可视化显示;(3)特征提取:进行有监督和半监督特征子集选取和单特征评价,能有效选出具有强标准能力的特征子集;(4)分类决策:能够对数据进行有监督和半监督分类诊断;(5)结果评价:能够对特征选取和分类结果的优良进行评价比较,如有十次交叉验证法、留一法等测试方法,分类精度评价通常指标:分类正确率、多次分类精度标准差、kappa测试、ROC等。应用所开发的DataAnalysis软件,与多家医院开展相关医学应用研究。与华中科技大学协和医院合作研究颈椎骨龄定量分期法(QCVM)(153个检测指标)的建立;与华中科技大学校医院开展老年痴呆综合评价(53个检测指标)量化分析。目前已能够从这两个数据集中分别选取10个左右的检测指标(特征)建立辅助诊断模型。已有的诊断模型包括:神经网络、逻辑回归、线性回归、决策树等。并在相应的测试数据集上达到了80%以上的诊断精度,初步取得了一些具有医学应用价值的研究成果。