基于内容的客户端垃圾短信过滤系统的研究

被引量 : 11次 | 上传用户:davidfeng2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会垃圾短信泛滥,严重骚扰着手机用户,并且为人们正常使用手机进行交流和沟通带来了极大的不便,有些违法短信和不良短信也带来了一定的社会危害。因此垃圾短信过滤是当今学术界研究的一大热点也是难点,但它同时也是广大手机用户的迫切需求。本文主要研究了基于内容的垃圾短信过滤,它可以看成是一个不规则短文本的分类问题。其核心是分类算法。主要工作包括短信语料的采集和分析、过滤系统的研究设计、核心过滤算法的选择和实验、实验系统的搭建和测试等。在短信语料方面,本文采集了2089条短信,并且从中选择了部分语料进行深入分析,总结提取了短信和垃圾短信的特征,为以后的过滤研究打下了基础。同时这些短信语料也将作为实验系统的训练和测试语料。在系统框架设计中,首先考虑了实现途径和过滤原则。通过对比选择了基于客户端的垃圾短信过滤途径。并且根据手机用户对垃圾短信的过滤需求,提出了垃圾短信过滤原则,即“宁可放过,不能错杀”。在核心过滤算法方面,借鉴了目前成熟垃圾邮件过滤方法,选取了三种过滤方法,即决策树算法、最大熵算法和显式规则算法,并实现了基于PC机的垃圾短信过滤实验系统。都取得了较好的过滤效果,其中决策树算法的平均正确率为97.2%,平均召回率为96.71%。最大熵算法的平均正确率为96.55%,平均召回率为95.85%,基于显式规则的过滤系统在保证了100%的正确的情况下,召回率达到76.79%。最后对三种算法从过滤效果,时间复杂度和灵活性方面进行了对比,阐述了基于显式规则的过滤算法的优越性。
其他文献
平板式环路热管具有易于与电子器件贴合、良好均温性等优点,在电子器件热控方面具有很大的应用潜力。平板式蒸发器承压能力弱、易变形的特点,使得其加热面难以被扩展和工质选
<正>一、《如果·爱》:中国式好莱坞的佳片这是一个发生在北京的爱情故事,男女主人公面对命运的一次次捉弄,互相取暖。理想与现实的差别让这个爱情故事看似分外俗套,但是经过
电信企业集团公司不仅面临着国务院国有资产监督管理委员(下简称国资委)的预算考核,还要根据国资委的考核要求以及自己的经营计划对各省份公司进行预算考核。因此,制定合理的
实现“转型升级”,由主要依靠要素投入的粗放型增长转变为主要依靠技术创新的集约型增长,是现阶段我国经济发展中的核心任务。中小民营企业要实现转型升级,需要良好的金融环境。
报纸
数学思想方法是人们从具体数学内容中提炼出来的对数学知识的本质认识,是在研究和解决问题的过程中所采用的手段、途径和方法。化归思想方法作为中学数学最为基本的思想方法
在中国的医药行业中,代理制已经成为一种颇具中国特色,且比较符合国情的医药营销模式,它可以帮助企业在最短的时间内,充分利用各地代理商的渠道和资金资源,迅速占领市场、扩
采用红曲、金银花、杜仲、水飞蓟、山楂等中草药组成复方制剂添加于蛋鸡日粮中观察对鸡蛋胆固醇含量的影响。将试验蛋鸡随机分为 3组 ,每组 4个重复 ,试验期 5周 ,试验 组添
随着计算机技术、电力电子技术的发展,使得电机性能指标也相应的提高和日益完善。这些变化对电机提出了越来越高的性能与质量指标,也使电机性能的精确测试显得更为重要。但监
通过对比分析,采用加入和未加入Ca-Si线两种生产工艺,研究了车轴钢中非金属夹杂物的组成与形貌。结果表明,采用钙处理后钢中非金属夹杂物由脆性向塑性转变,并且得到了明显的
随着国家在航空航天领域取得的成就,随着“神五”、“神六”的飞行成功,中国在世界航天史上已经具有举足轻重的地位。转台作为航空、航天等领域中进行半实物仿真和测试的关键