粗糙集在网络图片广告过滤中的应用

来源 :南开大学 | 被引量 : 0次 | 上传用户:yufeng_09
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的迅速发展和日益普及,使其蕴含了海量的信息资源,已成为人们获取信息的重要途径之一。然而,与此同时网络广告日益泛滥,产生了许多负面影响。一方面,网络广告会干扰网民浏览或杳找网络信息,网民对网络广告的反感逐年上升;另一方面,网络广告会淹没网页中的有用信息,严重损害了Web挖掘的质量。在这种背景下,对网络广告进行过滤显得尤为必要,特别是由于品牌图片广告占据了整个网络广告市场的半壁江山,所以针对网络图片广告过滤的研究很有实际意义。   本文将网络图片广告过滤问题转化为文本分类问题,这种文本分类问题是可以通过粗糙集模型来处理的。已有研究存在着各种各样的不足之处,本文针对这些不足,根据网络图片数据集的特点,在一般粗糙集模型的基础上,提出了一种针对网络图片广告过滤的“粗糙集分组约简模型”,采用分组约简的方法对文本数据集进行特征选择,能够提高算法时间效率。设计了对比实验,利用UCI机器学习数据库中的Internet Advertisements数据集,分别用粗糙集分组约简模型和一般粗糙集模型进行了对比分类实验。   本文的主要工作和贡献体现在以下几点。首先,较全面地总结了国内外基于数据挖掘的网络图片广告过滤领域的研究成果;其次,率先将粗糙集理论应用于网络图片广告过滤领域,实证研究表明粗糙集理论能很好地处理网络图片广告过滤问题,分类准确率达到甚至超过了以往的研究结果;第三,根据网络图片数据的特点,改进了一般粗糙集模型,提出了新的粗糙集分组约简模型:最后,设计了对比实验,用实际数据对两个模型进行了实证分析,表明粗糙集分组约简模型能进一步提高分类质量。   本文提出的粗糙集分组约简模型具有较好通用性,可以类比应用于那些可以将特征项分为若干组的数据集,这种数据集在义本分类领域是比较多见的,例如垃圾邮件过滤问题。
其他文献
一  每一个新来者,都会有一种遗失感。  没有一张熟悉的面孔,没有一个熟悉的地方。街道溜达一天,公园闲逛一天,都听不到有人喊你的名字。  这种遗失感,在某天骑着共享单车去一片绿地闲逛时,十分强烈地向我袭来。天气太热,汗流浃背,我索性脱了身上的短袖衫,光着背骑车在街上穿行——这样赤裸着上身,在大街上骑行,在我所居住的城市是不可能的,不仅因为那座城市没有酷暑,而且即使有时天气太热,也不会有人赤裸着上身
期刊
设备维修外包是中小企业降低设备维修成本,提高设备管理水平,进而增强竞争力的有效途径。在业务外包迅猛发展的背景之下,作为业务流程外包的一种具体形式,设备维修外包已经获得了