论文部分内容阅读
随着互联网络的越来越普及,它所覆盖的范围也越来越大,而互联网络传播的信息量每天都在成倍的增长,信息内容也越来越多样化。为了能在数据量庞大,数据种类繁多,分析过程繁琐复杂的情况下,有效的根据用户的任务要求快捷准确的审计出有危害的信息,我们主要针对目前网络上危害性最大的政治、色情和暴力这三类文本,设计开发了有针对性的内容审计系统。本文的主要研究内容包括以下五个方面:1、采用层次分析的方法实现了对未知文本从主题分类到态度倾向性分析的过程。通过对有害信息的介绍,我们发现危害性最大的文本可以归结为三类:政治、色情和暴力;在主题分类的基础上再针对相应的文本进行倾向性分析无疑会缩小范围,提高分析的准确性。2、针对主题分类的特点,本文在分析现有特征选择算法的基础上,设计了一个基于CHI-GA的组合特征选择算法,通过试验分析证实了它的有效性。3、由于采用层次分析的方法,使得针对某一类文本而构造特定的领域极性词典成为了可能,由此可提高文本倾向性分析的准确性。在本系统中我们分别针对政治、色情和暴力这三类文本构建了不同的领域极性词典。4、针对文本倾向性分析的特点和难点,本文结合现有的文本倾向性分析方法,提出了一种基于领域极性词的短语搭配识别方法,并利用识别出的倾向性短语作为特征训练SVM分类器,从而实现文本倾向性识别。试验结果证实取得了良好的效果。5、针对用户要求审计的数据量庞大,数据种类繁多,分析量繁重的问题,我们采用了先进的分布式处理技术,设计了基于插件的C/S体系结构,使得系统的整体架构表现为客户端—服务器端—代理端—插件的层次结构。并在此基础上实现了能在大量文本中高效准确的识别出有害文本的内容审计系统。