基于fastText的垃圾邮件过滤算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:ydy611
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子邮件在互联网时代扮演着不可替代的角色,垃圾邮件分类既可以阻断无用信息传播,提高用户体验,也可以拦截有害信息降低潜在危险。以往众多学者提出基于传统机器学习的垃圾邮件分类方法,存在人工筛选特征工程难度较大、训练时间较长等缺陷。近年来,深度学习在自然语言处理领域取得了令人瞩目的成就,fastText作为一种浅层神经网络在垃圾邮件分类上表现优良。本文在充分调研的基础上,发现fastText存在下面两点不足:(1)在n-gram特征处理阶段会产生噪声词,这些词出现的频率极高且缺少实际语义特征信息,降低邮件分类准确性。(2)邮件文本较短小,在向量空间建模时会产生稀疏向量与稀疏矩阵,不能充分映射特征空间,影响分类效果。针对上述问题,本文在fastText算法基础上对其改进。(1)提出TF-fastText算法,在输入层使用改进的TF-IDF-N算法计算n-gram处理后的特征词权重,根据权重去除高频低区分度的无意义词,从而消减fastText模型的噪声数据,提高邮件分类的准确率。通过将TF-IDF-N与传统算法进行组合实验,证明了TF-IDF-N的改进是有效的。使用TF-fastText与传统机器学习算法、神经网络算法进行邮件分类实验,实验结果表明此算法不仅能提升邮件分类的准确率而且花费的时间成本较低。(2)提出LDA-fastText算法,通过提取语料库中的主题词,将主题词与原始词序列对比,把相同主题词下的单词补充到原始词序列,减少稀疏向量,并且有利于高区分度特征词在隐藏层的向量表示,提高分类准确性。将其与传统机器学习算法、神经网络算法以及TF-fastText算法进行邮件分类实验,实验结果表明此算法对邮件分类的准确率略有提升但时间成本略高。(3)提出TFL-fastText算法,结合两种算法的优点既去除了冗余词条又补充了稀疏矩阵,将其与传统机器学习算法:朴素贝叶斯、KNN、SVM和神经网络算法:fastText、RNN、CNN及改进的TF-fastText、LDA-fastText进行邮件分类实验,实验结果表明此算法分类准确率最高且时间成本最低,证明了TFL-fastText的有效性。
其他文献
文本分类是根据文本的内容为文本分配标签或类别的过程,是自然语言处理中的基本任务,具有广泛的应用。在大数据时代,从海量文本数据中分析和挖掘有用的信息,不仅可以节省人力
随着移动网络的快速发展,移动社交应用日新月异。其中,多媒体数据(视频、音频、文本等)的分享是移动社交网络的重要应用之一。在移动社交网络中,移动社交用户可以使用便携的
图像语义分割(Image Semantic Segmentation)是对图像中的所有像素按其表示的语义内容进行像素级别的分类,在遥感图像解译、自动驾驶、医疗影像分析以及无人机导航等应用场景
随着时代的快速发展,城市建设土地资源日趋紧张,城市建设用地不得不转向进行地下空间开发,使得深基坑工程发展迅速(深度、跨度等方向)。深基坑工程现已发展为一个系统性工程,
高性能宽波段光电探测器在红外光探测、夜视、遥感、光通信、安全检查等军事和民用领域都有着极其重要的应用价值,因此被广泛研究。到目前为止,已经研制出了基于硅(Si)、砷化镓
GaN是一种重要的宽禁带半导体材料,广泛用于制备高亮度LED、半导体激光器和大功率电子设备。在蓝宝石(α-Al2O3)衬底上生长的GaN由于其与蓝宝石衬底之间存在较大的晶格失配和热
传统内燃机汽车的高燃油消耗和废气排放,加剧了全球能源危机和环境污染,使得运输行业面临严峻的能源、环境问题。开发节能环保、能量利用率高的新能源汽车成为有效的解决途径
目的:研究SREBP-2在破骨细胞分化和乳腺癌骨转移中的作用及其机制,阐明SREBP-2对乳腺癌骨转移造成的骨破坏的调控机制,同时为乳腺癌骨转移引起的骨溶解的治疗提供新的治疗靶
六方氮化硼是一种二维III-V族氮化物半导体材料,具备宽带隙、高硬度、高热导率以及耐腐蚀等卓越优点,在光电器件、高频通信和电能转换等领域有着非常大的应用潜力。作为一种
随着科技的飞速发展,人们对导航与定位服务的要求也越来越高。不管是在室内环境还是在室外的环境下,单一的导航定位方式都很难满足长时间、高精度、实时定位的需求。将多种导