论文部分内容阅读
在互联网广泛普及的今天,电子邮件已经成为人们进行信息交互的重要工具之一。它在给人们带来极大便利的同时,也给人们带来了造成很大困扰的副产品——垃圾邮件。为了解决垃圾邮件带来的问题,人们在技术和法律方面都进行了不断的努力,垃圾邮件已经得到了一定的控制。当前,垃圾邮件过滤的主要技术包括白名单与黑名单技术、规则过滤、基于关键词匹配的内容扫描、以及基于内容的文本分类方法等。目前的垃圾邮件过滤系统如基于BP神经网络的过滤方法,已经取得了很好的效果,准确率得到了很大的提升,但由于BP神经网络本身存在局部极小点,收敛速度和可塑性都有待提高,这在一定程度上影响了邮件过滤的效果。基于ARTMAP神经网络的垃圾邮件过滤是一种基于内容的文本分类方法,将ARTMAP神经网络应用于垃圾邮件过滤是一个新的研究方向,可以提高过滤网络的收敛速度和可塑性,并能防止网络陷入局部极小点。本文介绍了垃圾邮件的定义,探讨了垃圾邮件的危害,分析并总结了当前主要的垃圾邮件过滤技术,对常用邮件分类方法的基本原理及分类准确率进行了介绍。在此基础上,本文提出了基于ARTMAP神经网络的垃圾邮件过滤系统,并介绍了ARTMAP过滤器的过滤模型及其工作流程。之后,使用Ling-Spam语料集进行分析对比实验,实验证明,ARTMAP垃圾邮件过滤器更符合垃圾邮件特征不断变化的现实环境,提高了过滤器的性能,其准确率和查全率也分别达到了99.01%和99.50%。并且在性能上对ARTMAP神经网络和BP神经网络进行了比较,实验证明,ARTMAP神经网络不存在局部极小点,具有可塑性,并且收敛速度比BP神经网络快。本文的贡献主要有以下两个方面:1.在性能上对ARTMAP神经网络和BP神经网络进行了比较。实验证明,ARTMAP神经网络不存在局部极小点,具有可塑性,并且收敛速度也比BP神经网络要快,这种神经网络能够更好的适应垃圾邮件特征不断变化的环境。2.构造ARTMAP过滤器对垃圾邮件进行过滤。ARTMAP过滤器采用ARTMAP神经网络对已经预处理过的邮件文本进行分类,一类为垃圾邮件类,另一类为合法邮件类。实验证明,ARTMAP垃圾邮件过滤器更符合垃圾邮件特征不断变化的现实环境,提高了过滤器的性能,其准确率和查全率也分别达到了99.01%和99.50%。