论文部分内容阅读
互联网的快速发展及电子信息的迅猛膨胀带来了严重的“信息爆炸”问题,用户可以通过网络获取到最新信息,同时,鉴于网络的开放性这一特点,用户就会不可避免的接触到暴力、色情、封建迷信、种族主义等等具有明显意识倾向的不良信息。准确高效的从浩如烟海的网络信息中获取用户的需求信息及过滤掉不感兴趣的垃圾信息,成为互联网发展亟需解决的问题。基于内容的信息过滤技术能够帮助人们检索到感兴趣的相关信息,同时过滤掉非法信息。然而,在网络信息过滤中,非法文本的内容有较强的时效性及突发性,且会随着时间、背景、地点等的不同而呈现不同的变化,必须实时更新过滤模板,才能反映这种变化,才能保证信息过滤系统的性能及效率。面对实时垃圾信息过滤新挑战,及时捕获用户最新需求信息,研究网络信息过滤中过滤模板增量学习方法,实时调整网络信息过滤模板,成为人们关注和研究的热点,有着深远的社会意义。本文首先对网络信息过滤技术进行了研究探讨,针对基于内容的网络信息过滤技术中固定的过滤模板不能动态追踪实时用户需求的缺陷,论文结合反馈思想,提出了两种过滤模板的增量学习方法,并将其用到网络信息过滤系统中,以优化过滤效果,提高过滤的准确率。本文的工作总结主要包括以下三个方面:1、利用改进的特征选择方法,提出了一种改进的过滤模板增量学习方法该方法主要是通过收集正、负反馈集,并结合遗传算法,提出了改进的特征选择方法,对正负反馈集特征选择后,结合两者调整过滤模板的特征项权重。实验结果显示,过滤模板改进后较改进前,系统的整体性能有了很大程度的提高。2、结合反馈增量学习思想,提出了一种基于朴素Bayes分类的过滤模板反馈增量学习方法该方法收集反馈集,并对反馈集进行训练之后,用提出的朴素Bayes分类的过滤模板反馈增量学习方法重新修正分类器,以使得分类器能够实时追踪用户需求,从而提高过滤准确率,经反复实验测试系统的整体稳定性,改进后分类器的整体性能稳定性相对较好,宏平均F1值都在80%以上,且最高值为90.32%。3、结合反馈增量学习方法,设计并实现基于内容的网络信息过滤系统将提出的反馈增量学习算法应用到网络信息过滤系统中,调整过滤模板特征项权重。实时捕获并更新用户需求,利用用户的最新需求信息增量优化Bayes分类器,最终实现网络不良信息的及时过滤,在保证系统整体稳定性的同时提高过滤准确率。