论文部分内容阅读
从不良信息中最为普及的中文色情文本过滤入手,用近邻法(KNN)算法构造对比了4种特征项选择的方法在中文色情文本中的应用,它们分别是字、词、标点符号和词性等特征.试验表明,中文色情文本不同特征项的选择对中文色情文本的分类效果起到了重要的作用.实验同时表明,所设计的过滤器在保证速度的前提下,很好地完成了基于内容的高精度过滤.