论文部分内容阅读
本文从对垃圾邮件的行为分析入手,研究与实现了基于行为分析的垃圾邮件过滤技术。
在具体实现过程中,通过对垃圾邮件进行深入的分析和研究,建立相关行为特征分布模型,从而提取出垃圾邮件的特征。为了研究分析垃圾邮件的行为特征普遍性,对垃圾邮件的某些行为特征趋势进行一年的统计分析,得出较为普遍的垃圾邮件行为特征。为了便于行为识别算法的实现,建立行为特征的数学模型,将处理后的邮件数据集的行为特征进行量化。以开源数据挖掘系统WEKA为基础,实现基于决策树的过滤系统,对量化后的行为特征数据进行挖掘,得出影响最终决策的行为规则,利用行为规则实现对邮件的分类。
实验采用标准的邮件过滤性能测试方法,在TREC邮件数据集上的实验结果以及现实的邮件系统中的应用结果来看,基于行为分析的垃圾邮件过滤算法要比基于贝叶斯的bogo算法有较大,特别在垃圾邮件的误过率方面。