论文部分内容阅读
信息隐藏技术是信息安全领域的一个重要研究热点,可广泛地用于隐蔽通信、机密信息的存储与传输、数字媒体的版权保护等。但信息隐藏技术也可能被恶意滥用,对国家、社会、个人造成不可估量的损失,因此需要研究隐藏信息检测技术来拦截和破坏利用信息隐藏技术秘密传递的非法信息。另外,研究隐藏信息检测技术可以促进信息隐藏技术的发展,为信息隐藏系统的安全提供衡量标准。因此,研究信息隐藏技术和隐藏信息检测技术对维护信息安全具有十分重要的意义。文本信息隐藏技术以文本数据为载体,利用文本数据在格式、结构和语言等方面的冗余,将秘密信息隐藏到文本数据中。文本隐藏信息检测技术则是文本信息隐藏技术的对抗技术,以检测文本数据中隐藏信息存在性为目的。本文一方面深入研究常见的格式层、词汇层、句子层文本信息隐藏技术的原理,提出相应的检测算法。另一方面,从提高嵌入效率和特征保持两方面设计更安全的文本信息隐藏算法,以提高抵抗信息隐藏检测攻击的能力。其主要研究成果如下:(1)针对基于字符格式的文本信息隐藏方法,提出了三类统计特征来设计检测算法。基于字符格式的信息隐藏方法会引起相邻字符的格式属性值的跳变,字符游程长度的改变,以及语义相关字符的格式属性的异常变化,从而提取了三类统计特征,然后以支持向量机为分类器对基于字符格式修改的隐写文档和正常文档进行分类。实验结果表明基于这三类统计特征的检测方法在检测可靠性和通用性上各有优势,检测精度高。(2)针对基于同义词替换的信息隐藏方法,提出了一种基于同义词词频统计特征的检测算法。对同义词组中的同义词,按其在大规模语料库中的词频大小进行排序,定义同义词所在位置和同义词组的大小为同义词的属性对。由于同义词的替换将引起高频属性对数量降低而低频属性对数量的增加,理论分析了属性对分布概率在嵌入前后的改变量与嵌入率的关系,提出了基于属性对相对概率差的特征向量来检测基于同义词替换的隐藏信息。同时,进一步理论分析了信息隐藏算法中同义词编码方法对检测特征的影响。实验结果表明,该算法与已有检测算法相比具有更好的检测性能。(3)针对基于句法变换的信息隐藏方法,提出了一种基于语义等价句法结构统计特征的检测算法。句法变换会导致可相互转换的不同句法结构分布概率的改变,根据该变化情况建立了高阶统计模型,然后理论分析了句法变换引起的句法结构高阶统计特征分布的改变,推导了统计特征的选择。实验结果表明,针对不同体裁和嵌入率的隐写文本,该算法都能提供较高的检测精度。(4)为了提高文本信息隐藏算法的嵌入效率,提出了一种q元分组码校验矩阵的构建算法,用于设计根据秘密信息长度和隐藏容量自适应选择分组码的文本信息隐藏算法。该嵌入算法与一般的矩阵嵌入方法相比能在低嵌入率时获得更高的嵌入效率。实验结果表明,构建的校验矩阵能使隐藏方法具有接近于理论上限的较高嵌入效率。针对噪声附加的文本信息隐藏算法,设计了扩展的分组编码方法。该方法通过建立分组中权重小的载体数据向量与秘密信息向量的编码关系,以使嵌入效率达到基于分组码嵌入时的理论上限。实验结果表明,扩展分组编码方法的使用,大大降低了基于噪声附加的隐写文本被检测到的可能性。(5)为了保持文本统计特性不变,提出了一种基于选择题的安全文本信息隐藏方法。以Cachin信息隐藏安全性理论模型为指导,选择具有独立同分布特征的特殊文本载体选择题来设计隐藏算法。该算法利用选择题之间和选择题内部选项之间的无序性对选择题和内部选项顺序进行编码,然后根据秘密信息从题库中选取选择题组成隐写文本,并通过改变选项顺序以嵌入更多的秘密信息。实验结果表明,该算法隐蔽性好,嵌入比特率较高,并能抵抗统计分析攻击。