反馈增量学习算法及其在网络信息过滤中的应用研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:angel5tears
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的快速发展及电子信息的迅猛膨胀带来了严重的“信息爆炸”问题,用户可以通过网络获取到最新信息,同时,鉴于网络的开放性这一特点,用户就会不可避免的接触到暴力、色情、封建迷信、种族主义等等具有明显意识倾向的不良信息。准确高效的从浩如烟海的网络信息中获取用户的需求信息及过滤掉不感兴趣的垃圾信息,成为互联网发展亟需解决的问题。基于内容的信息过滤技术能够帮助人们检索到感兴趣的相关信息,同时过滤掉非法信息。然而,在网络信息过滤中,非法文本的内容有较强的时效性及突发性,且会随着时间、背景、地点等的不同而呈现不同的变化,必须实时更新过滤模板,才能反映这种变化,才能保证信息过滤系统的性能及效率。面对实时垃圾信息过滤新挑战,及时捕获用户最新需求信息,研究网络信息过滤中过滤模板增量学习方法,实时调整网络信息过滤模板,成为人们关注和研究的热点,有着深远的社会意义。本文首先对网络信息过滤技术进行了研究探讨,针对基于内容的网络信息过滤技术中固定的过滤模板不能动态追踪实时用户需求的缺陷,论文结合反馈思想,提出了两种过滤模板的增量学习方法,并将其用到网络信息过滤系统中,以优化过滤效果,提高过滤的准确率。本文的工作总结主要包括以下三个方面:1、利用改进的特征选择方法,提出了一种改进的过滤模板增量学习方法该方法主要是通过收集正、负反馈集,并结合遗传算法,提出了改进的特征选择方法,对正负反馈集特征选择后,结合两者调整过滤模板的特征项权重。实验结果显示,过滤模板改进后较改进前,系统的整体性能有了很大程度的提高。2、结合反馈增量学习思想,提出了一种基于朴素Bayes分类的过滤模板反馈增量学习方法该方法收集反馈集,并对反馈集进行训练之后,用提出的朴素Bayes分类的过滤模板反馈增量学习方法重新修正分类器,以使得分类器能够实时追踪用户需求,从而提高过滤准确率,经反复实验测试系统的整体稳定性,改进后分类器的整体性能稳定性相对较好,宏平均F1值都在80%以上,且最高值为90.32%。3、结合反馈增量学习方法,设计并实现基于内容的网络信息过滤系统将提出的反馈增量学习算法应用到网络信息过滤系统中,调整过滤模板特征项权重。实时捕获并更新用户需求,利用用户的最新需求信息增量优化Bayes分类器,最终实现网络不良信息的及时过滤,在保证系统整体稳定性的同时提高过滤准确率。
其他文献
组播是一种由单个或多个源发送数据包到群组主机的有效通信方式,IP组播技术主要通过路由器实现组播功能,在网络资源的使用上有较高的效率。但是,由于IP组播协议和模型的不足
家庭安全一直是人们关心的问题。传统的家居安防监控系统的各个控制子系统相互独立,未能形成一个有机整体,越来越不能满足用户的要求。安装安全的、符合要求的自动化智能安防系
随着电子商务的迅速发展,人们从网上获取的信息越来越多,顾客有了更大的选择空间同时也带来了一些新的课题。海量的数据信息增加了顾客购买所需的难度,在找到自己需要的商品前必
近年来,信息技术不断发展,互联网络技术在人们的生活中发挥着重要的作用。随之产生的海量数据中存在着大量未被挖掘的信息,没有有效工具的帮助,人们在寻找有效信息的过程中耗
电子邮件是当前互联网上使用最为广泛的服务之一,随着互联网及应用的不断发展,垃圾邮件大量蔓延,造成社会生产力的极大浪费。因此垃圾邮件过滤非常必要,具有重要的理论意义和社会
多视图的学习在最近十几年引起了众多研究人员的极大兴趣和关注。而传统的模式识别和机器学习的方法多是集中在单视图上进行的。这些单视图方法往往通过独立、交替的方法训练
随着互联网的迅速发展,网络问答系统成为一种具有应用前景的远程教育模式。目前国内多数教育问答系统对用户提出问句的理解仍然局限在关键词匹配的模式,反映了实用性和智能性的
随着人工智能的发展,人们对这个领域的研究不断深入。对类似真人发音的语音生成和获取的控制,是机器人发音系统急需解决的问题。DIVA(Directions Into Velocities ofArtculators
无线传感器网络是一种无基础设施的网络,它由一组传感器节点以自组织的方式构成,其主要目的是协作感知、数据采集和处理网络覆盖区域中的感知对象的信息,最后将经过处理得到详尽
数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据仓库中的数据量非常大,并且在逐年增大。因此提高查询速度是数据仓库必须要