基于规则的文本信息过滤系统语料库自动生成技术

论文部分内容阅读

文本信息过滤就是根据需要,屏蔽或过滤用户不需要或者不良的文本信息,在Internet迅速发展的今天,文本信息过滤技术已经引起了广泛的关注.该文以2001中央财政专项"网络信息的安全过滤技术"开发的"基于规则的文本信息过滤系统"为基础,提出了一种自动生成过滤系统语料库的技术,其中语料库包含词库和规则库,是过滤系统对需要被过滤的文本内容(目标文本)的抽象描述,过滤系统根据语料库对待处理文本进行识别和过滤.原过滤系统中的语料库的开发需要开发人员手工对大量的目标文本样本进行分析处理,经过大量的实验和修改后得到,这种方法不仅费时费力,以于开发人员有很高的要求,而且没有形成规范,缺乏可重复操作性,难以保证过滤系统性能的稳定.该课题根据这种情况,提出了一种自动生成过滤系统语料库的技术,这种技术能够从目标文本的样本中提取语义特征,并且结合描述通用语言的标准语料库,生成可以抽象目标文本的生成语料库.这种技术解决了原系统语料库开发中存在的问题,完善了基于规则的过滤模型,并且在很大程度上提高了基于规则的文本信息过滤系统的使用价值.

其他学术论文