论文部分内容阅读
垃圾邮件问题日益严峻,电子邮件用户平均每周收到的一半垃圾均为垃圾邮件。反垃圾邮件技术已经成为了研究的热点。而研究基于内容的反垃圾邮件过滤技术更是当前的热点。基于朴素贝叶斯的文本分类技术是目前最有效的邮件正文内容过滤技术之一。但是垃圾邮件的特征是不断变化的,而传统的贝叶斯邮件过滤技术往往不能适应这种变化。因此,朴素贝叶斯邮件正文分类技术必须和其他技术配合起来过滤不断变化的垃圾邮件。基于隐马尔科夫模型的文本消歧技术很好的弥补了朴素贝叶斯的文本分类技术在识别“模糊”词汇上的不足,成为目前垃圾邮件文本过滤领域的研究热点。基于此,本文在分析朴素贝叶斯的文本分类技术的基本原理和基于隐马尔科夫模型的文本消歧技术机理的基础上,将朴素贝叶斯的文本分类技术与基于隐马尔科夫模型的文本消歧技术相结合,设计了一个基于朴素贝叶斯的邮件正文分类技术与基于隐马尔科夫模型的文本消歧技术相结合的垃圾邮件组合过滤算法,将其实现,运用于垃圾邮件过滤系统中。具体的说,本文的工作主要包含下列内容:(1)概述了垃圾邮件的定义、危害,国内外垃圾邮件过滤问题的研究现状和发展趋势。分析了朴素贝叶斯和隐马尔科夫模型的基本原理。(2)设计了一个基于朴素贝叶斯文本分类技术和基于隐马尔科夫模型文本消歧的垃圾邮件组合过滤算法。(3)用C/C++语言编码实现该组合过滤算法,重点是基于隐马尔科夫模型文本消歧算法的编码实现。(4)设计了一个上述算法的垃圾邮件混合过滤系统,并分别在中、英文语料集上做了对比测试及分析,取得了较好的效果。