论文部分内容阅读
医疗决策分析是传统医疗研究结合大数据分析产生的新兴研究方向。在大数据时代,医疗卫生领域数据库的信息量和信息种类均爆炸式增长。针对此类问题,医疗决策分析应运而生,其中的重要一类就是病因分析。本文以孤独症为例来研究孤独症的影响因素对患儿病情的影响,数据支持来自上海市精神卫生中心孤独症门诊。孤独症业已成为一种重要且危害严重的小儿心理疾病,对患儿本身的成长危害巨大,对患儿的家庭也造成了沉重的心理压力和经济负担。为解决孤独症影响因素关系模型建立中遇到的数据缺失问题,本文引入了矩阵填充方法对缺失数据进行填补,根据孤独症的患儿信息数据具有有效信息众多,数据的秩较高等特征,本文改进了现有的低秩矩阵填充算法,提出了两种可应用于高秩矩阵填充的算法,分别是基于交替方向乘子算法(ADMM)的填充算法(HRMC)和基于自编码器的填充算法(AEMC)。前者结合了矩阵填充的逻辑和数据中各变量重要度不同的实际情况,令控制变量的权重因子根据变量的重要度取值,使得算法将更多的资源投入到重要变量的缺失数据的填充之上,从而提高算法的效率;后者利用自编码器结合矩阵填充,在反向传播的求导过程中同时求损失函数对矩阵本身的导数。基于数据缺失问题的分析结果,本文进一步建立了孤独症影响因素与孤独症病情的人工神经网络关系模型。首先,确定衡量孤独症症状严重程度的指标和孤独症的待研究影响因素。然后,建立了关于孤独症行为量表(ABC)评分与影响因子关系的BP神经网络模型。紧接着,分析了神经网络的三个关键性参数对网络精度的影响,分别是训练算法、训练样本分配比例和隐含层的节点数,提高了神经网络的预测精度。最后,对优化过的网络进行敏感性分析,得到了影响孤独症症状较严重的因素,即患儿的基因在孤独症候选位点上是否异常,患儿的母亲是否有孕期疾病。为了验证矩阵填充模型和算法的有效性,以及合适的数据填补可以提高模型精度,降低统计偏差,本文进行了矩阵填充的数值实验。首先,利用生成的测试矩阵测试算法的表现,然后,将两种算法应用到实际的孤独症患儿数据的填充过程当中,将填充结果与多重插补法(MI)和奇异值阈值算法(SVT)进行对比,结果证明两种算法精度均优于现有算法。最后,将矩阵填充前后的数据输入孤独症影响因素神经网络模型,结果表明合适的数据填补确实可以有效提高模型的预测精度。