基于文本分类的反垃圾邮件技术研究

论文部分内容阅读

现如今,互联网已经成为了我们生活的一部分,作为互联网服务之一的电子邮件,以其方便性、低成本性等特点,已经被广泛应用,成为人们生活中最普遍的网络沟通工具。但是由于其潜在的巨大利益,垃圾邮件越来越猖獗,其不但消耗了大量的网络带宽,而且占用了收件人时间、存储资源以及传播不良信息,对社会造成极大的不良影响。本文首先研究了电子邮件的发送协议和反垃圾邮件技术的背景、发展以及相关技术,并且对垃圾邮件进行了定义;其次对整个反垃圾邮件平台进行了设计;第三,通过研究了中文分词技术——字典存储技术和路径选择,实现了整合基于统计的分词和基于字典的分词模块,实现邮件的基本特征属性集的提取,这是文本分类算法实现的核心,在此基础上对文本相似度以及多层贝叶斯网络模型进行了研究、改进并且实现。研究过程如下所示:首先对于文本相似度,本文在基于向量的文本特征的基础上,实现文本相似度向多维空间中向量之间相互关系的转化,对于搜索引擎上使用的夹角相似度在邮件过滤系统中文本相似度度量的劣势,考虑用距离度量其相互关系,通过理论分析和项目应用中发现该量度在邮件的计算上,特别是长邮件内容的计算上,具有更低的时间复杂度,实验数据显示,对比与夹角相似度也具有更好的分类效果和更低的误判率。其次对整个朴素贝叶斯模型在反垃圾邮件中的实现过程进行了描述和分析,在研究朴素贝叶斯模型时,发现由于其属性集较少、邮件特征不明显等原因,分类效果不是特别理想。因此提出将3层贝叶斯网络应用于反垃圾邮件系统中,通过研究属性节点之间的相关度,和定义的属性顶点度等规则完善多层贝叶斯网络,并进行计算分类。根据性能和实验数据分析,对比朴素贝叶斯,具有更好的属性集支撑和分类效果。并且可以推广到多层贝叶斯模型文本分类中。最后,对本文的工作进行了总结和展望。

其他学术论文