Research and Implementation of Spam Filtering System Based on Improved Bayesian Algorithm

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:weike112121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,电子邮件已成为人们日常生活中的重要交流工具。电子邮件具有易于收发,成本低,效率高的优点,极大地满足了学习,工作和生活的沟通需求。但与此同时,垃圾邮件的数量也呈现爆炸性增长。垃圾邮件具有欺骗性,煽动性,商业性或不健康,严重影响人们的日常生活。反垃圾邮件技术一直是世界范围内的热门话题。如何找到一种准确有效的反垃圾邮件技术尤为重要。经典的垃圾邮件过滤技术包括基于黑白列表的过滤技术,基于规则的过滤技术和基于内容统计分类的过滤技术。基于贝叶斯算法的垃圾邮件过滤是一种基于内容统计分类的过滤技术。贝叶斯算法的理论来自经典的数学概率论的贝叶斯定理,它具有严格的数学逻辑。与其他算法相比,贝叶斯算法在处理垃圾邮件过滤方面具有更高的准确性和更快的计算速度。与一般的贝叶斯模型相比,贝叶斯算法中的朴素贝叶斯模型极大地简化了模型的复杂度,因为它假设特征属性是相互独立的。但是,最常用的朴素贝叶斯模型也有一些缺点。在处理自然文本分类问题时,文档的特征属性之间或多或少存在某些相关性,这将导致预测结果出错。为了提高贝叶斯算法在垃圾邮件处理中的准确性,本文设计了一种在分类模块阶段设置判断阈值的方法,对贝叶斯算法进行了改进。判断阈值的设置是根据实际情况,人们希望不要将普通邮件分类错误,以免造成更大的经济损失。本文设计并实现了一种基于改进贝叶斯算法的垃圾邮件过滤系统,特别是系统的模块化。该系统分为四个模块:预处理模块,训练模块,分类模块和交叉验证模块。本文详细介绍了每个模块的过程和实现,以方便后续的修改和维护。这四个模块完成了系统的各种任务,包括文档分析,分词,数据清理,特征选择,概率计算,培训词库,分类判断,交叉测试等。在本文中,我们使用从Kaggle论坛下载的语料库作为数据集,其中包含垃圾邮件和正常电子邮件的比例,以准确模拟现实生活中电子邮件类型的比例,以进行后续跟踪。实验更加普遍。为了验证改进贝叶斯算法的有效性和优越性,本文在实验阶段对判断阈值的选择和训练样本数进行了两组实验。通过比较准确率,召回率,F1值和趋势图分析,得出最佳判断阈值和最佳样本数,并验证了改进的贝叶斯算法在滤波中的准确性,优于朴素贝叶斯算法。
其他文献
背景:既往动物实验研究发现三羟乙基芦丁可改善颈脊髓损伤大鼠的神经功能,但缺乏其作用机制的相关研究。目的:通过体内体外实验研究三羟乙基芦丁对颈脊髓损伤的抗氧化应激作用,并对其可能机制进行初步探讨。方法:(1)细胞实验:大鼠肾上腺PC12细胞购于美国模式菌种收集中心(ATCC)细胞库。MTT法检测梯度浓度(0,25,75,100,150,200,250μmol/L)叔丁基过氧化氢(tert-butyl
社会的发展与科技的进步对人才提出了越来越高的要求,仅仅有着扎实的基础知识已经不能够满足时代的需求,这就需要在人才培养过程中更重视能力的培养。高考命题趋势已逐渐从考查学生的知识掌握程度转变成考查学生的能力,对“大概念”进行深入理解与应用已经成为教育对学生的新要求。高中化学的大概念是对高中化学概念体系的整体性概括,其抽象于高中化学概念体系并具有广泛迁移性的特点,深刻理解并熟练应用“大概念”,可以促进知
当前,教学中的"知识原子化"导致了学生知识结构零散、认知水平低阶、情感发展受限等问题。以兼具整体性、层次性和发展性三重特征的知识结构化为推手,可实现学生知识结构在本体形式内容、认知过程方法以及情感态度价值观层面的融合统一。基于"知识三重结构"视角,可通过"知识网络视角下的结构化""认知框架视角下的结构化"和"大概念统整视角下的结构化"三条路径开展知识结构化的教学实践。
围绕大概念进行科学教育引发了广泛关注,无论是从现实出发,还是从国际科学教育大背景来看,大概念的提出十分必要。在梳理能量大概念的基础上,提出以学科大概念一单元大概念—基本概念和规律三级框架对高中物理能量大概念进行整合,并从能量的形式、转换、守恒与耗散三个方面阐述能量学科大概念的内涵,以期对培养学生核心素养提供参考和借鉴。
为政之要,惟在得人。近年来,滦平县坚持选准用好干部,探索实施“一平时、三推荐”选人方法,搭建四个育人平台,实行“管爱结合、容纠并举”管人举措,树立“四重”用人导向,健全干部“选育管用”全链条机制,以干部“给力”,促全县经济社会发展持续“有力”。在“选”上做实功,挑出“好苗子”。坚持立体看人,精准识人,推行“一平时、三推荐”的干部选拔识别工作法,将考人与考事相结合、一时与一贯相结合、选拔与储备
期刊
刺梨系蔷薇科蔷薇属植物单瓣缫丝花或缫丝花,刺梨果具有较高的保健和药用食用价值。目前,对刺梨的研究主要集中在刺梨的果实上。刺梨作为贵州省民族药,刺梨果、根、叶具有药用和食用双重属性。该文以刺梨的根、花及叶3个部位为研究对象,综述刺梨根、花及叶在营养成分、药效成分、矿质营养及氨基酸等品质方面的研究现状,并对刺梨根、花及叶下一步在品质方面的研究内容进行展望,为刺梨根、花及叶的资源合理开发利用提供参考依据
声表面波(SAW,Surface Acoustic Wave)器件由于具有稳定性好、灵敏度高、多参数敏感等优点,广泛应用于各类传感器。随着物联网的发展,SAW传感器也正在向柔性化方向发展。本文研制了一种基于ZnO压电薄膜的柔性SAW器件,对器件的射频特性和紫外探测性能进行了实验研究。本文首次将碳纤维(CFs,carbon fibers)引入SAW器件,在PI/编织碳纤维复合材料衬底上,首先采用磁控
随着信息化的进步,由于传统的光子学器件受到衍射极限的限制,信息传输质量不佳,人们开始走向了基于广义光学折反射定律的超表面的研究之路。由于线性超表面具有较低的二次谐波效率,而非线性超表面不仅有较高的非线性效率,而且在非线性成像系统和光学处理中具有巨大的潜在应用。所以本人自主设计了两种功能的非线性超表面,即能够实现多焦点聚焦功能的超表面和产生无衍射贝塞尔光束的超表面,在这项工作中,本论文研究的主要内容