面向互动型网络媒体的不良信息检测与过滤

来源 :大连海事大学 | 被引量 : 6次 | 上传用户:jinxiangjinshu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互动式网络媒体技术使得信息传播形式由传统的单向进行转变为交互式的双向进行。它具有快捷性、多渠道性和广泛性等特点。另一方面,互动式网络也为不良信息的发布提供的便利渠道。近年来,如何从大量的WEB信息资源中检测及过滤不良信息成为学术界和商界广泛关注的课题。网络论坛是互动式媒体的一个典型代表,本文以网络论坛为研究对象,通过查阅相关文献资料,回顾了信息过滤技术的相关理论,并主要完成了以下研究工作:(1)实现网络论坛信息的自动抽取。本文分别从网络论坛站点结构和页面信息块进行信息抽取,采用基于HTML结构的信息抽取技术,先用HTML解析器将HTML文档解析成DOM树,然后通过对DOM树的操作实现信息抽取。(2)实现了面向网络论坛文本的预处理和模型表示。本文根据网络论坛的结构特点,提出了一种改进的特征权重算法来计算特征项的权重,采用基于词条的向量空间模型来表示网络论坛文本的内容,向量中的每一维元素被称为一个特征项。(3)建立网络不良信息过滤器。本文分析和总结了不良信息的内容、结构和传播特征,根据不良信息的特点,采用了一种基于朴素贝叶斯的改进算法,建立了不对称贝叶斯过滤器,并根据过滤模型的评价指标验证信息过滤的效率。(4)设计并实现了互动网络媒体不良信息过滤系统。本文采用了二级过滤策略,将基于关键词过滤技术和内容过滤技术有机结合,对经关键词过滤后的可疑样本再进行内容过滤;根据不良信息分布的不均衡性,建立了朴素贝叶斯分类器和不对称贝叶斯分类器进行信息过滤;最后,通过实验比较了两种分类器的性能。
其他文献
从医学图像重建人体解剖结构的多组织体模型,是现代计算机辅助医学应用领域一项基本且重要的工作。本文介绍了一种基于医学图像的多组织四面体模型重建新方法。它主要分为两
随着企业市场化改革的不断深化和竞争的日趋激烈,企业将面临着越来越严峻的挑战,为了适应市场竞争,企业必须拓宽思路,向管理和创新要效益。企业资产管理(Enterprise Asset Managem
近年来,随着网络技术的发展和数字地球平台概念的提出,空间数据获取技术也在不断进步,从而使空间信息向多源、多级和海量化的趋势发展。同时,空间信息应用的范围不断扩大,正
随着万维网的迅速发展,越来越多的组织、公司在万维网上发布已发现的软件安全缺陷信息。本文基于垂直搜索技术从网上获取软件安全缺陷信息,并进一步基于语义标注抽取该信息用
监狱、看守所作为一个国家重点安防防护单位,对于安防系统的要求非常严格。随着安防技术及其相关领域的发展,监狱各个相关部门根据自身的特点及业务需求逐渐形成了各种功能不
学位
Internet的发展带动了信息的迅速增加,如何从海量的信息中快速有效地找到有用的信息,已经成为亟待解决的问题。文本信息的自动分析可以有效地解决这一问题,而文本信息自动分
基于内容的图像检索是目前多媒体技术中非常活跃的研究方向之一.虽然近年来出现了一些较成熟的检索系统,但是这些系统存在一些问题,如未能很好地模拟人的视觉特性以及对图像
随着移动3G牌照的发放,移动运营商也开始大规模建设R4网络。在R4网络中,核心网采用软交换技术,控制与承载分离。MSC Server之间通过IP网相连,采用BICC协议通信。MGW之间的话
近几年来,一些列重大公共突发事件的频发,使得智能应急系统的构建变得愈加重要。互联上存在着大量与应急领域密切相关的资源,这些资源对于应急智能系统的构建具有重要的意义,