论文部分内容阅读
随着通信业务的发展,手机通信服务也得到了迅猛发展,手机用户数量直线上升,手机普及率迅速提高。截止2011年9月底,全国拥有9.52亿移动用户,移动电话普及率为71.1部佰人。与此同时,由于短信短小、快速方便、花费少等优点逐渐变成传递信息和沟通交流的主要方法。在人们享受短信带来的便利的同时,也受到了垃圾短信的负面影响,一些含有色情、诈骗、恐吓、骚扰、广告等内容的垃圾短信肆意横行。垃圾短信严重干扰手机用户的日常生活,浪费网络资源,带来潜在的社会危害。垃圾短信过滤系统的研究已成为目前学术界必研项目,是手机用户急需的应用软件。论文首先对垃圾短信的危害、定义、分类、特征、现阶段治理情况、以及垃圾短信过滤的基本途径和方法进行了介绍,重点介绍了:黑/白名单过滤和文本分类过滤。其次介绍了文本分类过滤的关键技术:文本预处理、分词技术、特征提取算法、文本分类算法。其中重点研究和实现了TF-IDF、MI、IG、CHI特征提取和KNN、Bayes分类算法,并给出了评价指标,分析选取了适合手机端实现的文本分类算法。最后,结合黑/白名单过滤和文本分类过滤,设计实现了一种以服务器为辅在手机端施行垃圾短信过滤系统,并于Windows Mobile系统上进行了设计实现。论文主要工作包括:(1)自建短信样本库,搜集了广告、诈骗、不良、违法等各类垃圾短信和正常短信,组建了包含600条垃圾短信和600条正常短信的短信样本库,为评价过滤性能和效果提供了条件。(2)在TF-IDF、MI、IG、CHI特征提取基础上实现KNN、Bayes分类过滤,在短信预处理中引入同义词归一替换,提高了处理效率和分类准确率。KNN分类F指数为97.7%,Bayes分类F指数为96.1%,基于Bayes分类无需保存短信样本在手机端,因此最终选择使用Bayes分类过滤以节省手机资源。(3)系统将分类过滤所涉及的样本训练与过滤分离,用服务器为手机过滤提供样本训练结果,减少了手机终端的计算量,节省了大量空间。(4)系统分为服务器端和手机端,并提供样本反馈学习,手机端可以获取最新特征词库,也可以将错误分类的短信反馈给服务器实现信息共享。(5)在Windows Mobile手机操作系统上对设计的系统进行了实现,采用模拟器模拟短信发送,系统可以准确拦截过滤垃圾短信。