论文部分内容阅读
随着互联网的不断普及和办公自动化需求的日益升级,电子文档的应用范围在不断的扩大,PDF (Portable Document Format)作为一种文件格式与操作系统平台无关的电子文档,已经成为数字化信息传播和存储的重要格式。伴随着PDF的广泛使用,针对PDF的攻击事件也层出不穷。其中,带有恶意代码的PDF文档带来的危害最为严重,给广大企业和用户带来了极大的损失。因此,针对恶意PDF文档的检测技术越来越凸显在当前时代背景下的意义。本文对PDF文档结构和针对PDF文档攻击技术进行,对现有的恶意PDF文档检测方法进行比较,结合目前的PDF文档分类方法,提出了基于逻辑回归的恶意PDF文档静态检测方法。具体工作如下:1.对PDF文档格式和目前针对PDF文档的攻击手段进行归纳,分析目前PDF文档检测技术的优势与不足,结合逻辑回归算法,提出了一个基于逻辑回归的恶意PDF文档检测模型。2.设计并实现了基于逻辑回归的恶意PDF文档检测系统。详述了系统需求、系统设计、关键模块的功能与实现。3.在PDF文档特征提取模块,结合PDF文档格式,选择PDF文档的结构路径作为特征,对PDF文档进行特征提取。提取过程使用广度优先算法,保证提取过程中的有效性。4.对PDF文档进行特征选择时,研究了目前常用的特征选择算法,选择卡方检验算法作为特征选择算法,选择出可供系统分析的有效特征。5.在PDF分类检测模块,采用当前机器学习领域使用广泛的逻辑回归算法,学习训练生成分类器。并通过仿真实验,从检验正确率和时间效率上对系统有效性进行了验证。