基于文本分类的反垃圾邮件技术研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:dillon100200
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现如今,互联网已经成为了我们生活的一部分,作为互联网服务之一的电子邮件,以其方便性、低成本性等特点,已经被广泛应用,成为人们生活中最普遍的网络沟通工具。但是由于其潜在的巨大利益,垃圾邮件越来越猖獗,其不但消耗了大量的网络带宽,而且占用了收件人时间、存储资源以及传播不良信息,对社会造成极大的不良影响。本文首先研究了电子邮件的发送协议和反垃圾邮件技术的背景、发展以及相关技术,并且对垃圾邮件进行了定义;其次对整个反垃圾邮件平台进行了设计;第三,通过研究了中文分词技术——字典存储技术和路径选择,实现了整合基于统计的分词和基于字典的分词模块,实现邮件的基本特征属性集的提取,这是文本分类算法实现的核心,在此基础上对文本相似度以及多层贝叶斯网络模型进行了研究、改进并且实现。研究过程如下所示:首先对于文本相似度,本文在基于向量的文本特征的基础上,实现文本相似度向多维空间中向量之间相互关系的转化,对于搜索引擎上使用的夹角相似度在邮件过滤系统中文本相似度度量的劣势,考虑用距离度量其相互关系,通过理论分析和项目应用中发现该量度在邮件的计算上,特别是长邮件内容的计算上,具有更低的时间复杂度,实验数据显示,对比与夹角相似度也具有更好的分类效果和更低的误判率。其次对整个朴素贝叶斯模型在反垃圾邮件中的实现过程进行了描述和分析,在研究朴素贝叶斯模型时,发现由于其属性集较少、邮件特征不明显等原因,分类效果不是特别理想。因此提出将3层贝叶斯网络应用于反垃圾邮件系统中,通过研究属性节点之间的相关度,和定义的属性顶点度等规则完善多层贝叶斯网络,并进行计算分类。根据性能和实验数据分析,对比朴素贝叶斯,具有更好的属性集支撑和分类效果。并且可以推广到多层贝叶斯模型文本分类中。最后,对本文的工作进行了总结和展望。
其他文献
近些年,随着计算机图形学的发展,纹理映射技术作为一项非常重要的技术已经得到了广泛的应用。目前,大家研究的重点主要是集中在对高级纹理映射技术的研究和改进上,高级纹理映
结构化异常处理(SEH),是Windows操作系统所提供的对错误或异常的处理机制,是Windows操作系统的一个重要组成部分。Win32结构化异常处理(Win32SEH)机制是32位Windows提供给应