论文部分内容阅读
近些年来,手机短信由于其传递准确可靠、迅速及时和价格低等优点,其发展尤为迅速。与此同时也使得大量的垃圾短信泛滥成灾,问题已经越来越严重,它不仅仅越来越严重的影响着人们的正常生活,甚至在一定程度上危害着社会公共安全和稳定。正因如此,过滤和拦截垃圾短信将成为当前信息通信领域之中一个需要立刻着手解决的问题,然而,目前的垃圾短信过滤技术主要是基于垃圾短信的某一个特征进行的简单过滤,如黑白名单、关键词过滤等,存在在明显的局限性和缺陷,对垃圾短信的过滤力度还不够。针对当前的现状,提出了一种平衡的基于最小风险朴素贝叶斯决策的垃圾短信过滤方法。该方法是基于短信内容的,通过收集大量的正常短信和垃圾短信实例,并结合关键词技术,将垃圾短信关键词和短信实例一起作为朴素贝叶斯文本分类算法的输入进行训练,然后将实际截获的短信通过该算法进行分类,在分类效果不明显的时候,采取通过垃圾短信典型特征进行再过滤的手段对其进行再判断,并最终得出短信类别。并通过自身收集创建的短信语料库对该方法进行了较为全面的实验分析。实验结果表明,该方法能够准确地对短信进行分类,降低合法短信的分类错误率,有效提高垃圾短信的查全率,分类召回率达到90%以上,符合了短信分类要求。当然,本文设计的过滤方法在实际应用中还存在着各种问题,将在以后的工作中加以改进完善。