论文部分内容阅读
电子邮件已经成为人们日常生活中通信、交流的重要手段之一,但垃圾邮件问题也日益严峻,网民平均每天收到的垃圾邮件数量已超过了正常邮件。目前经常采用的垃圾邮件过滤技术一般包括白名单与黑名单技术、规则过滤以及基于关键词匹配的内容扫描等。也可以从电子邮件的文本内容入手,使用文本分类、信息过滤的算法,在训练邮件集合上学习垃圾邮件分类器。垃圾邮件过滤中常用的文本分类方法有简单贝叶斯、k-近邻、决策树、boosting等。简单贝叶斯方法计算简便,但由于算法假设条件的限制,查全率和正确率都难以达到一个更高的层次。其他的几种方法有的效果比简单贝叶斯好一些,但计算较复杂。本文在分析简单贝叶斯方法的基础上,试图寻找一种速度快、计算简便、性能好的垃圾邮件过滤器。提出了并行过滤垃圾邮件的概念,将计算机理论中的“流水”引入到垃圾邮件分类器中,不仅实现并行效果,并且在公用邮件语料上的实验表明,并行过滤模型的的效果比较好,查全率和准确率都比较令人满意。具体的说,本文的工作主要包含:概述垃圾邮件过滤问题的研究现状。包括垃圾邮件的定义、危害以及常用的过滤技术。总结了常用的反垃圾邮件方法和技术,重点介绍了垃圾邮件的过滤技术。详细分析邮件过滤中的简单贝叶斯算法。并针对贝叶斯算法中的不足,提出了滑动窗口,从而提出了并行过滤模型的概念。介绍了并行过滤模型的设计和实现过程,包括主要模块的结果设计细节。通过使用公用的邮件语料和本文作者收集的邮件的实验来测试并行过滤模型的各方面性能。