内容审计系统的研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:wyn44298
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网络的越来越普及,它所覆盖的范围也越来越大,而互联网络传播的信息量每天都在成倍的增长,信息内容也越来越多样化。为了能在数据量庞大,数据种类繁多,分析过程繁琐复杂的情况下,有效的根据用户的任务要求快捷准确的审计出有危害的信息,我们主要针对目前网络上危害性最大的政治、色情和暴力这三类文本,设计开发了有针对性的内容审计系统。本文的主要研究内容包括以下五个方面:1、采用层次分析的方法实现了对未知文本从主题分类到态度倾向性分析的过程。通过对有害信息的介绍,我们发现危害性最大的文本可以归结为三类:政治、色情和暴力;在主题分类的基础上再针对相应的文本进行倾向性分析无疑会缩小范围,提高分析的准确性。2、针对主题分类的特点,本文在分析现有特征选择算法的基础上,设计了一个基于CHI-GA的组合特征选择算法,通过试验分析证实了它的有效性。3、由于采用层次分析的方法,使得针对某一类文本而构造特定的领域极性词典成为了可能,由此可提高文本倾向性分析的准确性。在本系统中我们分别针对政治、色情和暴力这三类文本构建了不同的领域极性词典。4、针对文本倾向性分析的特点和难点,本文结合现有的文本倾向性分析方法,提出了一种基于领域极性词的短语搭配识别方法,并利用识别出的倾向性短语作为特征训练SVM分类器,从而实现文本倾向性识别。试验结果证实取得了良好的效果。5、针对用户要求审计的数据量庞大,数据种类繁多,分析量繁重的问题,我们采用了先进的分布式处理技术,设计了基于插件的C/S体系结构,使得系统的整体架构表现为客户端—服务器端—代理端—插件的层次结构。并在此基础上实现了能在大量文本中高效准确的识别出有害文本的内容审计系统。
其他文献
毫米波无源成像利用目标与场景在毫米波段的自身辐射差异进行成像,在战场侦察,场景监控,反恐安检方面有着广阔的应用前景。但是现有的毫米波无源成像系统在分辨率和实时性方
L波段数字航空通信系统1(L-DACS1)作为未来民航移动通信系统的候选技术方案,主要为陆地航路、终端区及机场航空器提供空中交通管制及航空公司运营管理。L-DACS1系统采用正交
分娩是一个危险且痛苦的过程,产妇在进行分娩的过程中,会产生一系列的生理以及心理变化,并且受多种内外因素的影响会引起各种并发症.会阴水肿是临床常发的分娩并发症,绝大部
我们所处的世界是复杂多变的,而在人类认识世界的过程中,绝大部分信息来之于视觉。随着计算机技术和传感器的快速发展,机器视觉成为人类实现自动采集数据的重要组成部分。而在视