论文部分内容阅读
随着信息电子化和网络化程度的提高,敏感信息外泄的事件呈不断上升趋势,其造成的损失和影响也愈发巨大。其中文本文档作为信息传输和存储的主流载体,经由文本文档外泄引发的安全事件占很大比重。在当今大数据的环境下,如何在数量繁多的文本文档中识别出敏感信息,以便于后续防泄漏工作开展,是近年来安全领域的重要问题。传统的敏感文档检测通常基于关键词匹配或文本的统计学特征,这两类方法的局限性在于,一方面依赖人工制定关键词词典和筛选特征,提高了人工成本;另一方面忽略了语序和上下文信息,未能充分挖掘文本的内在含义,因此在应对敏感文档检测的复杂场景时显得力不从心。随着自然语言处理理论和技术的飞速发展,也有学者利用深度学习方法通过文本分类的形式对敏感文档进行识别。这种识别方式的优劣很大程度上依赖于模型对敏感文本内容的表征能力。由于敏感文档的特殊性,往往可供学习的训练样本数量不足以支撑模型获得高质量的词向量表示。而词作为构成文本的基本单元,词向量质量对于文本内容表征有重大影响。此外,词的敏感程度与上下文语境息息相关。例如,“兵力部署”一词在军事类文档中敏感级别很高,而在新闻和通俗类读物中敏感程度下降。由此,本文从文本内容表征的角度对敏感文档识别方法展开研究,具体如下:1.为解决训练样本不充分与模型语义表达能力的矛盾,本文通过引入预训练词向量以丰富模型的语言学知识,并提出了一种改进的Elmo动态词向量生成模型,并以语境迁移、添加噪声、设置未登录词的方式构造样本集以模拟敏感文档识别场景,从而对本文提出的改进模型进行验证。实验结果表明,上下文相关的词向量在上述模拟场景下相较静态词向量具备显著优势,并且改进模型在语义表达和训练速度上均优于原模型,从而验证了文本内容表达能力对检测识别效果的正面影响以及改进方法的有效性。2.针对传统机器学习识别算法中需要人工标注筛选特征的问题,考虑到深度学习方法在面对数据非均衡等复杂问题及泛化能力的优势,本文利用CNN的注意力机制并行连接双向RNN网络,提出了BGCBA(Bi-GRU-CNN Based on Attention)模型作为文本特征抽取工具,在有限的敏感样本中尽可能挖掘语义特征用于检测分类。通过与单类神经网络的对比实验,表明本文提出的BGCBA模型的分类性能更优。3.基于上述方法,本文提出了基于预训练词向量的敏感文档识别检测模型,据此设计并实现了一个敏感文档识别系统,并对进行了模块功能测试和系统性能测试,从而验证了该模型的有效性和实用性。