论文部分内容阅读
近年来随着医疗信息化的普及以及医疗健康大数据研究应用的推广,医疗领域数据存储方式也转向电子化,对医疗大数据研究的热度也就此上升。糖尿病作为威胁人类健康的三大疾病之一,引起了众多对于糖尿病数据挖掘或者数据分析的研究。糖尿病资源库中存储的数据类型复杂,包括了结构化、半结构化和非结构化数据,在涉及隐私问题上,缺乏对糖尿病数据进行敏感性的区分;此外,在众多糖尿病诊断预测的研究中,对用于预测分析的结构化糖尿病研究数据存在未匿名化处理或匿名化处理过度的情况,一方面未经匿名化处理的数据直接用于研究,可能会导致糖尿病数据在分析预测过程中或数据发布过程中发生敏感信息泄露的问题;另一方面,对于糖尿病数据表的过度匿名化会影响糖尿病分析研究的效果。因此,平衡糖尿病数据挖掘、预测分析中的数据高可用性和隐私安全是隐私保护研究中的重点问题,需要针对不同结构的糖尿病数据,从敏感性分类、敏感度分级以及进一步的匿名化实现对糖尿病大数据的隐私保护技术研究。针对半结构化、非结构化的文本类糖尿病数据,提出一种基于LSI-TF-IDF算法的文本分类技术实现对糖尿病文本数据的敏感性自动分类。在对于半结构化、非结构化的文本类型的糖尿病数据的敏感性分类过程中,根据糖尿病敏感数据的机密性、完整性和可用性定义糖尿病数据敏感信息的特征。通过改进TF-IDF算法,提升特征选择过程的准确性,结合朴素贝叶斯、K近邻和支持向量机三种分类方法,将改进后的特征选择算法与传统的特征选择算法进行了实验比较。实验结果显示,改进后的LSI-TF-IDF算法对糖尿病文本数据的敏感性自动分类具有更好的结果。针对结构化糖尿病数据,提出量化数据表中属性的敏感度值,制定敏感度分级策略。在此基础上,提出一种基于敏感度分级聚类的(k,t)-closeness匿名算法。对结构化的糖尿病数据表,通过计算记录的敏感度阈值,对准标识符属性的敏感性进行判断,设计糖尿病数据表的敏感度分级规则。通过对糖尿病数据表的敏感度分级,改进t-closeness匿名算法,以保证数据挖掘、分析预测研究中数据损失度尽可能小。实验结果表明,基于敏感度分级聚类的(k,t)-closeness匿名算法对于糖尿病数据表的匿名具有更小的信息损失。