论文部分内容阅读
垃圾邮件从文本形式演变为图像形式,严重影响人们的日常生活。基于文本的邮件过滤方法已经不能满足要求,因而对图像垃圾邮件的识别研究成为比较实用性研究课题。综合国内外研究现状,常用的图像邮件识别方法最终都是通过对邮件图像与图像样本库进行比对,涉及到的工作量十分庞大。为此研究一种方法在降低工作量的基础上能更好识别图像垃圾邮件有一定的价值。贝叶斯网络是一种基于概率统计的不确定性推理方法,在处理与不确定信息相关的智能化系统例如统计决策、专家系统等领域中已得到了重要的应用。贝叶斯网络建模的任务包括确定网络的拓扑结构和计算网络模型中各个节点的联合条件概率分布。本文将贝叶斯网络应用到图像型垃圾邮件的图像识别中。从图像信息整体特征出发,通过提取图像的相关属性特征对邮件图像进行识别,达到图像垃圾邮件过滤的目的。对未知图像的推理,运用网络模型的拓扑结构和相应节点的概率分布,在图像特征数据的基础上就能完成推理过程。本文的主要工作如下:1)首先对邮件图像样本库进行了数据分析,分析图像所包含的一些基本特征。针对垃圾图像,选择的图像特征主要包括颜色特征、噪声特征、纹理特征。对三种特征进行详细的阐述并分析,给出具体的特征提取方法,并通过MATLAB应用程序提取出图像的相关特征数据。2)利用贝叶斯基本原理以及贝叶斯网络的基础理论,与邮件中的图像特征数据相结合,通过图像数据的学习构建基于图像相关特征的贝叶斯网络模型;并且利用后验概率作为贝叶斯网络的评分函数,从已构建的网络模型中选择一个最优网络模型作为最终图像贝叶斯网络模型。然后对模型的各个节点进行参数学习,得到相关结点的联合概率分布。3)利用已经构建的图像贝叶斯网络模型以及各个结点的概率分布,在提取到未知图像数据的基础上通过消元法完成对未知图像的推理过程。4)最后通过构建好的图像贝叶斯网络模型对一系列的图像进行推理,得到推理结果,并对推理结果进行统计分析,验证贝叶斯网络模型的正确和可用性。本文完成了图像型邮件的样本库的数据分析、垃圾邮件图像的特征分析、特征选择、模型建立、图像推理识别整个过程。得到了一个较为合理的图像贝叶斯网络模型。利用图像贝叶斯网络模型对未知邮件图片进行推理识别,效果较好,且邮件图像误判率较低。