垃圾短信过滤系统的设计与实现

被引量 : 6次 | 上传用户:napone
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着通信业务的发展,手机通信服务也得到了迅猛发展,手机用户数量直线上升,手机普及率迅速提高。截止2011年9月底,全国拥有9.52亿移动用户,移动电话普及率为71.1部佰人。与此同时,由于短信短小、快速方便、花费少等优点逐渐变成传递信息和沟通交流的主要方法。在人们享受短信带来的便利的同时,也受到了垃圾短信的负面影响,一些含有色情、诈骗、恐吓、骚扰、广告等内容的垃圾短信肆意横行。垃圾短信严重干扰手机用户的日常生活,浪费网络资源,带来潜在的社会危害。垃圾短信过滤系统的研究已成为目前学术界必研项目,是手机用户急需的应用软件。论文首先对垃圾短信的危害、定义、分类、特征、现阶段治理情况、以及垃圾短信过滤的基本途径和方法进行了介绍,重点介绍了:黑/白名单过滤和文本分类过滤。其次介绍了文本分类过滤的关键技术:文本预处理、分词技术、特征提取算法、文本分类算法。其中重点研究和实现了TF-IDF、MI、IG、CHI特征提取和KNN、Bayes分类算法,并给出了评价指标,分析选取了适合手机端实现的文本分类算法。最后,结合黑/白名单过滤和文本分类过滤,设计实现了一种以服务器为辅在手机端施行垃圾短信过滤系统,并于Windows Mobile系统上进行了设计实现。论文主要工作包括:(1)自建短信样本库,搜集了广告、诈骗、不良、违法等各类垃圾短信和正常短信,组建了包含600条垃圾短信和600条正常短信的短信样本库,为评价过滤性能和效果提供了条件。(2)在TF-IDF、MI、IG、CHI特征提取基础上实现KNN、Bayes分类过滤,在短信预处理中引入同义词归一替换,提高了处理效率和分类准确率。KNN分类F指数为97.7%,Bayes分类F指数为96.1%,基于Bayes分类无需保存短信样本在手机端,因此最终选择使用Bayes分类过滤以节省手机资源。(3)系统将分类过滤所涉及的样本训练与过滤分离,用服务器为手机过滤提供样本训练结果,减少了手机终端的计算量,节省了大量空间。(4)系统分为服务器端和手机端,并提供样本反馈学习,手机端可以获取最新特征词库,也可以将错误分类的短信反馈给服务器实现信息共享。(5)在Windows Mobile手机操作系统上对设计的系统进行了实现,采用模拟器模拟短信发送,系统可以准确拦截过滤垃圾短信。
其他文献
<正>1.速冻食品的概念、分类与特点(1)速冻食品的概念速冻食品就是将新鲜的农产品、畜禽产品和水产品等原料与配料经过加工后,利用速冻装置使其在低温-30℃及其以下进行快速
合同解除制度是合同法体系当中最重要的制度之一,其创设的意义在于当合同履行严重受阻时,权利人可以行使合同解除权以“逃脱”合同的束缚。以往对合同解除制度的关注点往往着
目的随着多层螺旋(Multislice computer tomography,MSCT)在临床上的广泛应用,孤立性肺结节(Solitary pulmonary nodule, SPN)的检出率越来越高。本文研究我院经手术或其它方
俗字的存在由来已久。在傅世的刻本文献中,存在着大量的俗字。中醫古籍文献中更是如此。本文选择张仲景醫籍为研究材料,它主要包括《伤寒论》和《金匮要略》。流传至今的比较
<正>发展海水农业、开发海涂被列为海洋开发及国家发展战略中的重要一环,成为世界各国科学家研究的热点。因此,筛选耐盐、耐瘠,经济价值高的植物在海涂沙滩(非耕地资源)种植,
为了克服步进电机运行时存在的低频振荡、高频容易失步以及定位精度不高等缺点,人们常常采取细分驱动技术。本文对步进电机细分驱动时的电磁转矩以及电磁转矩的波动情况进行定
云南红河县垤玛乡位于红河县西部,地处红河、玉溪、思茅三地县交界,全乡哈尼族人口占总人口的98%,是一个集边远、贫穷、民族、山区于一体的特困乡,由于经济发展滞后、教学资源稀
儿童社会性发展开始于家庭,儿童在生命最初始阶段的人际交往、社会规范认知、社会角色扮演等,都是由家庭提供的。家庭是儿童生活生长最基本最主要的环境。家庭结构、家庭氛围
地区生产总值是衡量一个地区经济增长的重要指标。近几年,随着北部湾经济区的开放开发,中国—东盟自贸区的建立和运行以及西江经济带的发展,广西地区生产总值一直保持较快增
聚乳酸因生物相容性好且可生物降解而广泛用于生物医学领域中的药物释放及组织修复,是一种新型功能高分子材料,应用前景极其广阔。但这种材料疏水性较强,用于担载药物或生长因子