论文部分内容阅读
互联网的快速发展,使其成为人们交流信息的主要方式之一。但由于它的这种开放性,导致网络上存在很多如色情、暴力、迷信、反动等垃圾信息,严重影响了人们的日常上网活动。虽然目前已有很多文本过滤技术,但是随着外界环境的变化,文本过滤技术也需要不断地改进和提高。同时,随着人们生活水平的不断提高,越来越多的用户通过移动终端来访问互联网。如何保证移动用户能够通过移动设备获得健康的、有效的正常信息,这就需要在面向移动终端的云平台上实现文本过滤技术,从而实现对垃圾网页进行过滤处理。在这种需求下,本文在对现有的文本过滤关键技术进行了分析和讨论的基础上,改进了传统的基于向量空间模型的文本分类算法以及朴素贝叶斯分类算法,并采用这两种改进的文本分类算法构建了一个高性能的文本过滤系统;然后将该系统部署于面向移动终端的云平台,实现了云平台上的文本过滤服务。保证了移动终端用户能够通过移动设备访问互联网上正常的、合法的网页。本文的主要内容为:1、在对文本过滤技术中常用的特征选择算法进行分析研究的基础上,将等比例的思想运用于特征选择,使得提取的文本特征向量能够更准确地体现文本主题、类别信息等。2、在对文本过滤技术中已有的权重计算方法进行分析和讨论的基础上,考虑了特征项的结构信息、长度信息、比重信息等,对传统的权重计算方法进行了改进,使其能够更好地反映特征项对网页分类的重要程度。3、网页是一种结构化或半结构化的文档,因此本文采用模块化的方式对网页进行分类处理;同时将基于比重的改进权值计算方法以及等比例的特征选择方法应用于传统的基于向量空间模型的分类算法和朴素贝叶斯分类算法;从而利用这两个改进的分类算法构造了一个高性能的网页过滤系统,并且将该系统部署于云平台,提供了文本过滤服务。测试结果证明,改进的文本分类算法与传统的算法相比,具有更高的分类准确率、分类精度,较小的误判率和错误率等,进而改进的文本过滤系统具有更好的性能。