论文部分内容阅读
随着网络信息技术的日益普及和迅速发展,使用电子邮件进行交流,极大地满足了人与人之间的通信需求。但是,垃圾邮件作为互联网中具有争议的副产品,也愈演愈烈,尤其是图像型垃圾邮件(Image Spam),它不仅严重地浪费了资源,而且可能会阻塞和瘫痪网络,影响用户之间的正常沟通。因此,开发高效率的Image Spam检测技术是社会迫切需要的。论文介绍了Image Spam检测技术的背景、目的和意义,阐述了Image Spam的定义、特征、构造方法、检测难点,分析了比较常用的Image Spam检测方法,并指出了这些方法的优势与不足,从而提出了基于K最邻近的标签传播模型(K-Labels Propagation Model,KLPM)的Image Spam检测方法。论文的主要工作和贡献是:(1)提出了基于牛顿(Newton)稀疏表示的方法来消除图像的噪声:利用Newton法处理小波变换后的系数,使系数稀疏化。该方法能够在消除图像噪声产生影响的同时,尽可能多地保留图像的细节,从而提高检测方法的精度。(2)提出了利用SURF算法来提取图像的尺度和旋转不变特征。该算法对图像旋转、仿射变换、尺度缩放等图像的变化都能保持一定的不变性和可区分性。(3)提出了改进的均值聚类算法来聚类图像的特征,构成特征向量,计算图像之间的相似性,保证了图像之间的可比性。(4)提出了标签传播模型分类器,基本思想是:将每幅图像视为一个节点,并打上标签,通过在完全连接图上传播标签,从而对测试图像进行分类。并在此基础上,改进了该分类器,从而设计了基于KLPM的Image Spam检测方法,基本思想是:先通过基于Newton稀疏法的消噪模型来预处理图像,再获取图像聚类中心点信息;然后提取所有图像的加速鲁棒性特征描述符信息,进行均值聚类;最后采用KLPM检测Image Spam。此外,通过实验比较了多种方法,证实了论文方法具有较好的分类效果。