基于规则的文本信息过滤系统语料库自动生成技术

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:yin2002cn2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本信息过滤就是根据需要,屏蔽或过滤用户不需要或者不良的文本信息,在Internet迅速发展的今天,文本信息过滤技术已经引起了广泛的关注.该文以2001中央财政专项"网络信息的安全过滤技术"开发的"基于规则的文本信息过滤系统"为基础,提出了一种自动生成过滤系统语料库的技术,其中语料库包含词库和规则库,是过滤系统对需要被过滤的文本内容(目标文本)的抽象描述,过滤系统根据语料库对待处理文本进行识别和过滤.原过滤系统中的语料库的开发需要开发人员手工对大量的目标文本样本进行分析处理,经过大量的实验和修改后得到,这种方法不仅费时费力,以于开发人员有很高的要求,而且没有形成规范,缺乏可重复操作性,难以保证过滤系统性能的稳定.该课题根据这种情况,提出了一种自动生成过滤系统语料库的技术,这种技术能够从目标文本的样本中提取语义特征,并且结合描述通用语言的标准语料库,生成可以抽象目标文本的生成语料库.这种技术解决了原系统语料库开发中存在的问题,完善了基于规则的过滤模型,并且在很大程度上提高了基于规则的文本信息过滤系统的使用价值.
其他文献
在日益增长的网络服务中,为了研究如何向用户提供更高质量的服务,确保服务能够得到用户的认可,以用户为中心来评价服务质量是当前的迫切需要。用户体验质量(QoE, Quality of
互联网技术的飞速发展,使得以数据库为中心的Web应用系统越来越广泛。然而随之而来的安全问题也越来越频繁,SQL注入攻击是Web应用系统面临的严重安全威胁之一,其检测问题的研究