论文部分内容阅读
智慧医疗空前火热,各医疗云平台快速崛起,数据使用阶段使得医疗云平台充分发挥出医疗数据的价值。然而,医疗数据中包含大量个人隐私信息,数据处理不当会导致个人隐私的泄露,同时因其数据的价值性,针对医疗数据的攻击方式和数量大幅度增加。数据使用的主要方式有数据发布、智慧诊断模型应用以及统计直方图发布等,本文针对以上三种使用阶段的数据安全问题以及数据安全性与可用性无法有效平衡的问题,按照“数据规范化—>数据隐私保护—>隐私保护数据安全训练—>分类后样本安全直方图”的研究思路,从数据本质入手到数据使用的各个阶段,共做出以下方面的贡献和创新:(1)针对医疗数据质量普遍偏差的情况以及传统规范化方式存在的问题,提出一种改进的规范化处理方法,改善了传统规范化方法中min-max非零中心的问题以及z-score计算相对复杂的问题,提高了医疗数据质量。并将数据规范化与差分隐私保护DP(Differential Privacy)相关联,从而简化数据隐私保护时差分隐私的应用。同时通过规范化过程固定了差分隐私保护中的敏感度,再通过差分隐私处理后数据的测试准确性对本规范化中的规范范围进行调解,减小了差分隐私对数据负面影响的同时增加了规范化过程的灵活性。(2)针对传统差分隐私对发布数据保护后会使得数据可用性下降的问题,本文差分隐私保护和决策树模型将结合,提出了 DPDT(Differential Privacy and Decision Tree)算法。DPDT算法基于CART(Classification and Regression Tree)建立了 一种属性权重计算体系,利用属性权重改变了传统差分隐私的加噪方式,从而进一步减弱了隐私保护过程中对医疗数据可用性的负面影响,并为医疗数据发布提供了强力的隐私保障。(3)针对差分隐私对智能诊断模型安全保护后出现的梯度跳动和准确率下降的问题,本文将差分隐私保护与最小批梯度下降结合,提出了 DPMB(Differentially Private Mini-Batch Gradient Descent Algorithm)算法。DPMB 算法为智能诊断模型提供了底层训练数据的隐私保障,有效防止了会员攻击、梯度反演攻击等攻击方法对训练数据的窃取。并在DPMB算法中加入动态学习率,解决了模型近拟合状态时由于噪音添加带来的梯度跳动幅度过大的问题,加快了模型的拟合速度,提高了拟合质量。同时利用时间会计限定DPMB算法的隐私损失和差分隐私保护中噪音的过量添加,增强了模型的安全性和准确性。(4)统计直方图应用方面,以“虹云健康服务系统”平台大数据为数据基础,对用户数据进行属性数字化处理并将部分数据信息隐匿,之后使用DPDT和DPMB算法对数据进行隐私处理和分类,将原始数据的统计分析结果与经过DPDT处理和DPMB分类的数据统计分析结果进行对比,证明了 DPDT和DPMB在保证数据和模型安全性的同时,不影响统计分析的整体趋势。