文本内容安全监管体系模型研究

被引量 : 0次 | 上传用户:wd707800502
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet的开放性和日益增长的规模,为人们提供了自由交换信息的便捷手段。同时巨大的开放信息源也使一些恶意的和不良的(反动、色情等)内容信息趁机而入,成为用户获取有效信息的严重障碍。为保护国家安全、稳定,同时保护网络用户远离有害信息的侵扰,以及控制对这些信息的访问,有必要采取有力措施对这类信息进行监管,同时也有必要为运行Web服务的各种组织,提供对此类信息的访问加以监管的技术和服务。为此开发先进的文本内容安全监管技术是一项紧急而又重要的课题。本文通过对综合运用机器学习、模式识别、数据挖掘、知识发现、自然语言理解、中文信息处理、粗糙集理论、人工智能等学科的相关知识,通过分析各类不良信息的特征,结合文本信息处理目前研究进展,对文本特征选择方法以及相关文本处理算法进行综合分析,研究了适合不良文本信息过滤的模型及关键算法。首先,对国内不良文本过滤现状及相关过滤系统的研究进行了讨论分析,分析了基于PICS(Platform for Internet Content Selection)的内容选择,基于URL的过滤,基于特征词的过滤的优缺点,提出了智能内容过滤是文本深层次分析的必要技术,指出了文本安全过滤的应用领域。研究了处理大样本集的文本预处理技术、网页正文获取、快速词频统计算法等。其次,研究了文本处理中的文本表达技术和特征选择技术,包括Filter特征选择技术,Wrapper特征选择技术,基于粗集的特征选择技术,以及权重计算和归一化技术。指出了各种特征选择技术的优缺点,并对文本表示技术进行了实验。指出不同的过滤器需要采用适于其本身的文本表达方法。正确的归一化能够得到较好的结果。实际的样本集一般是不平衡样本,不同的过滤器对于不平衡样本集试验结果的性能差别较大。试验表明:中心向量法、支持向量机基于向量空间模型来表示文本,我们正确归一化后,和没有归一化前比较,性能有很大的提高。Naive Bayes由于采用概率模型表示文本,在标准样本集(平衡样本集)上得到了同基于向量空间模型的方法和基于支持向量机的方法相差不多的结果。但是在实际样本集(不平衡样本集)上,对于训练集,准确率比基于向量空间模型的方法和基于支持向量机的方法较差,但是在过滤未知反动样本上,准确率非常差,而基于向量空间模型的方法和基于支持向量机的方法较好。分析表明一方面由于不同反动网站的反动样本语法风格不一样,另一方面是反动样本特征空间较大,基于概率的统计方法不能反映全部特征空间分布。中心向量法和支持向量机对于平衡样本集或不平衡样本集都表现了较好的性能。第三,讨论了粗糙集的基本概念,指出了粗糙集的理论本质。研究了粗糙集属性约简算法,比较了基于区分矩阵的约简算法和基于属性重要度的约简算法,指出基于区分矩阵的约简算法在处理文本信息时是不充分的。提出了一种混合的属性约简算法,试验表明该方法在处理文本信息时是非常有效的,一方面利用常用的约简算法降低了文本维数,另一方面利用粗糙集约简算法去掉了很多冗余属性和噪音属性。第四,提出了一种粗糙集和相关过滤器相结合的针对主题特殊文本的过滤新方法,本文基于属性重要度,对文本属性进行前向选择提出了一种新的粗糙集属性约简算法,它产生几个约简,由于各约简基之间没有相同的属性,试验表明在处理文本数据时,具有更强的分类能力。整个过程分成两个阶段:首先将粗糙集理论作为前端预处理工具,实现分类数据中属性的约简过程,降低数据维数但基本上不损失有效信息,然后用统计方法作为后端处理器进一步对约简后的数据进行分类过滤,使计算量大大减少,同时提高了分类速度。通过试验结果可以看出,对未经粗糙集约简的文本属性集和经过快速约简的文本属性集比较,当约简个数m取值为3时,所选择的属性个数大大减少,基于向量空间模型的方法和基于支持向量机的方法在训练集和测试集上都达到了未经约简前的准确率。最后,开发了内容安全网关中不良文本过滤模块,设计了一个有效的不良文本过滤架构。基于多模式匹配算法,研究设计了高效的不良文本过滤引擎,并应用于安全网关和电子邮件过滤系统中。
其他文献
变式教学在中国由来已久,被广大教师有意识或无意识地应用着。变式教学符合新课程标准的要求,适应现代教学的需要,提高课堂教学效率和质量,培养学生的创新与思维能力。为探究
目的 比较3种不同检测方法对涂阴肺结核患者痰液和支气管肺泡灌洗液结核分枝杆菌检测结果,探讨如何提高涂阴患者的病原学阳性率。方法 选取2015年7月至2017年6月在衢州市人民
多传感器组合簇系统在如今的高科技信息战场是一个新的概念,此系统由不同种类、不同数量的传感器组合而成。在传感器组合簇中,最重要的是传感器组合簇根据不同的外部环境条件
在如今日益复杂的地面战场环境下,利用传统雷达信号处理技术已无法实现对地面目标的准确探测,因此对雷达目标识别技术的需求愈加迫切。高分辨一维距离像可以提供目标在雷达视
1935年以来,加拿大联邦政府的社会住房政策经历了三个发展时期。第一时期,联邦政府主要通过与金融机构合作,调动市场资金发展低价自有住房。第二时期,联邦政府与省政府一同建
对于小学语文教学来说,培养学生学习的兴趣比让学生掌握语文知识更加关键,学生只有在对语文产生热情之后才能积极主动地对知识进行汲取,为了能够提高学生对语文的学习热情,新
深海作业型ROV (Remotely Operated Vehicle:简称ROV)是人类深海环境勘探和开发的重要设备之一。深海条件下环境多样复杂,需要高可靠性且满足作业精度需求的导航系统,为水下
"何谓文学"和"何谓阐释"是位于文学研究核心的两个基本问题,各种文学理论的旨归均试图回答上述问题。由于文学自身的变化以及批评视角的转移总是与某一历史时段的社会文化语
<正>从创作现象到文体现象30年来中国的小小说从"创作现象"发展为"文体现象"再演变为一种"文化现象",构成了中国当代文学史上一道亮丽的风景。30年前中国的改革开放肇始,文学
互联网内容管理是国家依法管网的重要环节,本文认为应当在其中强化相对人的民事权益保护。首先,本文阐述了互联网内容管理相对人的定义,分析在互联网内容管理实务中所关涉的