论文部分内容阅读
随着信息时代的快速发展,为了有效地从海量数据中提取有价值的知识,数据使用者采取多种数据挖掘的技术手段去处理数据拥有者发布的信息。数据挖掘技术的快速发展一方面为企业带来了丰厚的利润,但另一方面随着数据挖掘技术的日益完善,挖掘工作也增加了数据库中潜在敏感知识暴露的风险。显然,数据拥有者粗鲁的拒绝发布数据在当今经济全球化的大背景下是行不通的,也不利于企业间商业合作的可持续发展。为了实现企业间商业共赢,共享数据库成为了必要的先决条件。因此,如何在不影响各方利益的同时,既完成数据挖掘任务,又要保证数据库中蕴藏的敏感信息不被泄露,具有重要的现实意义及理论意义。本文针对不同的企业隐私保护需求,设计了基于项的数据净化的隐私保护策略。对于关注发布后的数据库的精度和信息损失的数据拥有者,本文设计了基于模型的隐藏策略;对于具有不同风险偏好的数据库拥有者,本文设计了基于启发式算法的隐藏策略。不同于简单隐藏敏感属性的隐私保护方法,本文提出的所有隐藏策略针对的保护对象为数据库中蕴含的敏感信息,由于数据库蕴藏的商业竞争知识通常以敏感信息的形式为代表,所以本文的研究策略更具备现实意义。首先,针对敏感频繁项集隐藏问题,本文建立了一个约束满足模型。特别的,面对企业对精度与损失的多重需求,设定多目标优化0-1整数规划模型。在分析模型过程中不仅得出定性及定量的最优策略分析还提出了一种将非线性约束转为线性约束的技术方法。此外,利用项集的边界理论对原始模型进行了修正,得到的基于修正模型的隐藏策略大幅度提高了原策略的执行效率。其次,针对具有不同风险偏好的数据拥有者,本文在引入暴露风险的概念之后,提出了基于启发式算法的频繁项集隐藏策略。通过定量化分析净化操作对非敏感信息的影响,寻求最优隐藏策略。通过数值实验发现本文的隐藏策略在信息损失方面优于现存的启发式算法。在研究过程中,本文借鉴了已有的研究成果,深入研究数据挖掘中隐私保护方法与净化策略,为企业在数据共享阶段提供了修改数据库的理论支撑、决策支撑和实践指导。