论文部分内容阅读
随着互联网产业的迅速发展,电子邮件产业得到了很大的推广以及应用,人们通过使用电子邮件达到交流思想、传输文件、发表意见等目的。但是它在为人类带来方便快捷的通讯方式的同时,也为人类带来了一些副产品,也就是垃圾邮件。因此,电子邮件安全性问题已经逐渐受到越来越多用户的关注。当前对于垃圾邮件的过滤主要有以下几种技术:黑名单和白名单技术,基于规则的邮件过滤技术以及基于内容的邮件过滤技术等。这些过滤技术在准确度、性能以及中文变形词邮件过滤等方面都存在着问题,因此,本文将着重从这几个方面着手进行改进研究。本文首先介绍了垃圾邮件的起源以及发展历史,总结了垃圾邮件过滤技术的研究现状以及未来发展的方向。简单描述了贝叶斯算法及粗糙集理论以及他们在垃圾邮件过滤系统中的应用,并分析了这两个理论在应用过程中优缺点。本文对中文变形词的变形模式进行分析,并根据变形的模式采用一系列的处理方式来规避其对邮件分类造成的影响。本文提出了构造变形特征词表的多层过滤技术,使得过滤的准确度得到了有效的提高。本文采用粗糙集理论,对邮件系统的分类做了重新定位。将邮件分为普通邮件、垃圾邮件、与疑似邮件。提出了Bayes-Rough过滤算法,在该过滤系统中,根据两阶段过滤方法,不仅在对中文变形词邮件过滤的准确率有了改进,同时在效率方面也有了较大的提高。在结合了上述提出的邮件过滤技术,完成了一个完整的邮件收发系统中,实现了简单的邮件客户端。该系统能够满足配置邮箱、收发邮件等功能。并利用提出的过滤技术完成了该系统在接收邮件过程中的将邮件归类的功能。最后总结了该文中提到的邮件过滤的改进以及本文的具体工作,并提出了需要进一步完善的工作。