论文部分内容阅读
垃圾邮件开始泛滥于20世纪末期,具有成本低廉,传输便利,诱导性强等特点。某些商业组织利用此契机作为谋取利益的一种手段,肆意传播垃圾邮件。垃圾邮件的广泛传播给人们的工作生活带来了诸多不便与烦恼。大家的收件箱里都会有一些垃圾邮件的存在,它们不仅会占用用户的信箱存储空间,而且会占用用户阅读邮件的时间和精力。同时,用户在处理垃圾邮件时也需要投入大量的时间。垃圾邮件的形式多种多样,也一直随着互联网的发展不断更新,反垃圾邮件工作面临巨大挑战。因此,不断更新垃圾邮件分类和过滤的手段和方法,对改善邮件的使用现状具有重要的现实意义。本文借助数据挖掘工具,并运用机器学习的方法研究了两个方面的内容。所有的分析都是借助R语言编程软件实现的。第一,对整个邮件数据集的文本内容进行研究分析,分别从垃圾邮件和非垃圾邮件两个角度,分析两种文本内容中出现的高频词汇,并且画出两种邮件内容对应的词云图,最后分析高频词的语义和词性,并得出相关结论。第二,利用朴素贝叶斯方法、支持向量机法、K近邻法对7000条邮件数据进行建模分析。本文选取的评价指标为精确率,通过比较三种算法建立的分类器模型,得出本文分类效果最优的是拉普拉斯参数为2.5时的朴素贝叶斯分类模型,精确率能够达到97.1%。本文的创新点主要有以下三个方面:一是通过分析文本内容辅助建立模型进行邮件性质的判断;二是利用多种方法分别建立多个分类器,从多个模型中选择最优模型;三是在K近邻法中,使用十折交叉验证法和对比模型精确率双重方法选择最佳k值。