糖尿病大数据隐私保护技术研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:haoxuexi0825
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着医疗信息化的普及以及医疗健康大数据研究应用的推广,医疗领域数据存储方式也转向电子化,对医疗大数据研究的热度也就此上升。糖尿病作为威胁人类健康的三大疾病之一,引起了众多对于糖尿病数据挖掘或者数据分析的研究。糖尿病资源库中存储的数据类型复杂,包括了结构化、半结构化和非结构化数据,在涉及隐私问题上,缺乏对糖尿病数据进行敏感性的区分;此外,在众多糖尿病诊断预测的研究中,对用于预测分析的结构化糖尿病研究数据存在未匿名化处理或匿名化处理过度的情况,一方面未经匿名化处理的数据直接用于研究,可能会导致糖尿病数据在分析预测过程中或数据发布过程中发生敏感信息泄露的问题;另一方面,对于糖尿病数据表的过度匿名化会影响糖尿病分析研究的效果。因此,平衡糖尿病数据挖掘、预测分析中的数据高可用性和隐私安全是隐私保护研究中的重点问题,需要针对不同结构的糖尿病数据,从敏感性分类、敏感度分级以及进一步的匿名化实现对糖尿病大数据的隐私保护技术研究。针对半结构化、非结构化的文本类糖尿病数据,提出一种基于LSI-TF-IDF算法的文本分类技术实现对糖尿病文本数据的敏感性自动分类。在对于半结构化、非结构化的文本类型的糖尿病数据的敏感性分类过程中,根据糖尿病敏感数据的机密性、完整性和可用性定义糖尿病数据敏感信息的特征。通过改进TF-IDF算法,提升特征选择过程的准确性,结合朴素贝叶斯、K近邻和支持向量机三种分类方法,将改进后的特征选择算法与传统的特征选择算法进行了实验比较。实验结果显示,改进后的LSI-TF-IDF算法对糖尿病文本数据的敏感性自动分类具有更好的结果。针对结构化糖尿病数据,提出量化数据表中属性的敏感度值,制定敏感度分级策略。在此基础上,提出一种基于敏感度分级聚类的(k,t)-closeness匿名算法。对结构化的糖尿病数据表,通过计算记录的敏感度阈值,对准标识符属性的敏感性进行判断,设计糖尿病数据表的敏感度分级规则。通过对糖尿病数据表的敏感度分级,改进t-closeness匿名算法,以保证数据挖掘、分析预测研究中数据损失度尽可能小。实验结果表明,基于敏感度分级聚类的(k,t)-closeness匿名算法对于糖尿病数据表的匿名具有更小的信息损失。
其他文献
由我校学报刊发及我校作者撰写的7篇论文在湖北省社科期刊第十三届优秀论文评选中分别获奖,其中一等奖2项、二等奖3项、三等奖2项。具体获奖情况如下:一等奖(2项)叶青撰写的《做
古彩是一种景德镇较为传统的陶瓷装饰技法,笔线刚劲有力,形象概括夸张,色彩对比效果鲜明,具有强烈、质朴的民间艺术特色。古彩作为景德镇官窑瓷中的珍品,多用于彰显富贵显赫,
在公共网络上构建专有网络,将VPN(Virtual Private Network,即虚拟专用网)技术应用于校园网,突破校园网限制从而优化校园网的管理和应用,服务师生。文章给出了利用WEBVPN技术进行远
传统的财务理论以“理性人假设”为前提,认为管理者能够理性做出各项财务决策从而实现企业价值最大化。大量的认知心理学实验研究表明,人在做决策并不能完全做到理性思考,这
第一部分 丙泊酚辅助睡眠对睡眠剥夺后大鼠血清睡眠相关炎症因子和认知功能的影响目的:通过建立快动眼睡眠剥夺模型,观察丙泊酚辅助睡眠对睡眠剥夺后大鼠血清睡眠相关炎症因
<正>任何组织或者个人都必须在宪法和法律范围内活动,任何公民、社会组织和国家机关都要以宪法和法律为行为准则,依照宪法和法律行使权利或权力、履行义务或职责。要深入开展
光学显微镜是人类探索和了解微观世界的重要工具,但是光的衍射限制了光学显微镜的分辨能力,使其无法区分相距200 nm以内的微观结构。超分辨成像技术打破了光学衍射极限,将光
2013年7月31日,在国务院常务会议上,李克强总理提出,“推进投融资体制改革,发挥市场机制作用,同等对待各类投资主体,利用特许经营、投资补助、政府购买服务等方式吸引民间资