论文部分内容阅读
随着互联网信息技术的发展,各种色情、反动等不良信息在网上广泛传播,严重影响人类生活的健康品质,甚至威胁到国家的安定团结、社会的稳步发展。国家863计划“网上信息安全总和分析与监控系统”课题主要研究内容是如何对互联网上的不良信息进行监控、过滤等,确保网络内容安全。论文分析比较了空间向量距离(VSM)过滤器、贝叶斯(Bayes)过滤器以及K最近邻居(KNN)过滤器的性能,并针对论文研究目标,确定选择了空间向量距离(VSM)过滤器;在上述研究结果的基础上,结合利用粗糙集理论,提出了一个有效的网上不良文本过滤方法。实验结果表明了上述方法的有效性。主要研究内容如下:
首先,介绍了我国互联网所面临的问题,阐明了研究背景和意义,论述了互联网信息健康的必要性。
其次,研究了互联网上网页内容的抽取,对其进行了实验和分析。并介绍了常见的汉字编码。
再次,介绍了当前网络文本信息监控的方法,在信息处理方向上,文本的表示主要采用向量空间模型,给出了权重的计算方法和文本分类的几种算法。
接着,初步介绍了粗糙集理论,知识的分类,主要讲解了决策表的离散化以及在保持分类条件不变的情况下,决策表的属性约简和值约简,并给出了算法。
然后,讲述粗糙集理论在互联网上不良信息监控过滤中的应用与实现。给出粗糙集处理网页的流程,给出过滤系统模块的框架,对处理流程进行分析,最后给出该系统的处理实验结果。
最后,对本文所做的主要工作进行了总结和展望。