垃圾邮件的并行过滤模型及算法研究与实现

来源 :大庆石油学院 东北石油大学 | 被引量 : 0次 | 上传用户:zhanchuangye
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子邮件已经成为人们日常生活中通信、交流的重要手段之一,但垃圾邮件问题也日益严峻,网民平均每天收到的垃圾邮件数量已超过了正常邮件。目前经常采用的垃圾邮件过滤技术一般包括白名单与黑名单技术、规则过滤以及基于关键词匹配的内容扫描等。也可以从电子邮件的文本内容入手,使用文本分类、信息过滤的算法,在训练邮件集合上学习垃圾邮件分类器。垃圾邮件过滤中常用的文本分类方法有简单贝叶斯、k-近邻、决策树、boosting等。简单贝叶斯方法计算简便,但由于算法假设条件的限制,查全率和正确率都难以达到一个更高的层次。其他的几种方法有的效果比简单贝叶斯好一些,但计算较复杂。本文在分析简单贝叶斯方法的基础上,试图寻找一种速度快、计算简便、性能好的垃圾邮件过滤器。提出了并行过滤垃圾邮件的概念,将计算机理论中的“流水”引入到垃圾邮件分类器中,不仅实现并行效果,并且在公用邮件语料上的实验表明,并行过滤模型的的效果比较好,查全率和准确率都比较令人满意。具体的说,本文的工作主要包含:概述垃圾邮件过滤问题的研究现状。包括垃圾邮件的定义、危害以及常用的过滤技术。总结了常用的反垃圾邮件方法和技术,重点介绍了垃圾邮件的过滤技术。详细分析邮件过滤中的简单贝叶斯算法。并针对贝叶斯算法中的不足,提出了滑动窗口,从而提出了并行过滤模型的概念。介绍了并行过滤模型的设计和实现过程,包括主要模块的结果设计细节。通过使用公用的邮件语料和本文作者收集的邮件的实验来测试并行过滤模型的各方面性能。
其他文献
本文提出了一种新的基于内容检索图像的方法——基于小波变换颜色空间的图像检索方法。该方法先将图像进行小波变换,然后利用块划分技术提取图像小波变换后的低频部分和高频
机器人技术是一门综合了多种学科的尖端科学技术。作为信息技术和尖端制造技术的典型代表,它越来越受到重视,各国纷纷对机器人技术投入了极大的研究热情。多机器人系统功能强大
近年来,基于IP网络的全新IPTV业务随着人们对新的娱乐方式的追求而不断发展和成熟,其非常有潜力增值业务之一的休闲网络游戏也得到了越来越高的重视。所以,研究基于IPTV的高
光子晶体是八十年代末提出的新概念和新材料,无论在理论研究还是在实际应用方面,迄今都取得异常迅猛的发展。光子晶体光纤是光子晶体结构引入光纤中而制成的新型光纤。光子晶体
Internet的迅猛发展对宽带接入技术不断提出新的要求,xDSL宽带接入技术充分利用现有双绞线资源,为用户提供高速通道,被人们广为接受而成为宽带接入技术的主流。中国信息产业
目前最新的视频标准H.264/AVC可以支持从QCIF格式到HDTV的所有格式,这么宽阔的覆盖面使得H.264/AVC标准已经成为实现视频系统的一个很好选择。在H.264/AVC视频编码器的各个组