论文部分内容阅读
电子邮件在互联网时代扮演着不可替代的角色,垃圾邮件分类既可以阻断无用信息传播,提高用户体验,也可以拦截有害信息降低潜在危险。以往众多学者提出基于传统机器学习的垃圾邮件分类方法,存在人工筛选特征工程难度较大、训练时间较长等缺陷。近年来,深度学习在自然语言处理领域取得了令人瞩目的成就,fastText作为一种浅层神经网络在垃圾邮件分类上表现优良。本文在充分调研的基础上,发现fastText存在下面两点不足:(1)在n-gram特征处理阶段会产生噪声词,这些词出现的频率极高且缺少实际语义特征信息,降低邮件分类准确性。(2)邮件文本较短小,在向量空间建模时会产生稀疏向量与稀疏矩阵,不能充分映射特征空间,影响分类效果。针对上述问题,本文在fastText算法基础上对其改进。(1)提出TF-fastText算法,在输入层使用改进的TF-IDF-N算法计算n-gram处理后的特征词权重,根据权重去除高频低区分度的无意义词,从而消减fastText模型的噪声数据,提高邮件分类的准确率。通过将TF-IDF-N与传统算法进行组合实验,证明了TF-IDF-N的改进是有效的。使用TF-fastText与传统机器学习算法、神经网络算法进行邮件分类实验,实验结果表明此算法不仅能提升邮件分类的准确率而且花费的时间成本较低。(2)提出LDA-fastText算法,通过提取语料库中的主题词,将主题词与原始词序列对比,把相同主题词下的单词补充到原始词序列,减少稀疏向量,并且有利于高区分度特征词在隐藏层的向量表示,提高分类准确性。将其与传统机器学习算法、神经网络算法以及TF-fastText算法进行邮件分类实验,实验结果表明此算法对邮件分类的准确率略有提升但时间成本略高。(3)提出TFL-fastText算法,结合两种算法的优点既去除了冗余词条又补充了稀疏矩阵,将其与传统机器学习算法:朴素贝叶斯、KNN、SVM和神经网络算法:fastText、RNN、CNN及改进的TF-fastText、LDA-fastText进行邮件分类实验,实验结果表明此算法分类准确率最高且时间成本最低,证明了TFL-fastText的有效性。