基于内容的垃圾邮件过滤技术研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:oversky99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的发展,电子邮件也由于它的便捷得到快速发展,但随之而来的垃圾邮件却给经济和人们生活带来很大危害。因此,研究邮件的自动过滤具有重要意义。邮件过滤技术是反垃圾邮件的重要手段,目前主要有黑白名单过滤、基于规则的过滤和基于内容的过滤。本文主要研究的是基于邮件内容的过滤。 本文在分析当前邮件过滤技术的基础上,借鉴了文本分类的思想,把机器学习方法支持向量机引入到垃圾邮件过滤中。由于对分类有贡献的样本只有支持向量,而支持向量机方法却花费了大量时间在非支持向量的优化上,这就严重影响了支持向量机的效率;而邮件过滤对实时性要求又比较高。因此,本文提出了把改进的支持向量机算法GBSMO和NNCSMO应用到邮件过滤中,实验结果表明,在不影响分类精度的情况下,提高了算法速度。 本文主要工作包括: 1.比较并选择了标准邮件集,完成了邮件的预处理工作。实现了信息增益特征选择算法,通过实验对比,得出了PU系列语料库合适的特征维数。使用词频反文档频率计算选择的特征词的权重,通过算法把标准邮件集处理成了支持向量机算法可以直接处理的向量空间模型的形式。 2.针对支持向量机算法时间复杂度较大的问题,提出了两种改进方法GBSMO算法和NNCSMO算法。实验结果表明,改进后的算法在保持较高精度的同时,一定程度上减少了计算量,降低了时间计算复杂度,在对垃圾邮件进行分类与过滤时具有较好的性能。 3.针对不同邮件错判的代价不同这一特点,把处理数据不平衡的不同惩罚参数引入到邮件过滤中,取得了较高的准确率。
其他文献
学位
学位
期刊
期刊
期刊
期刊
期刊
期刊
学位
学位