基于免疫克隆选择的垃圾网页检测技术研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:liongliong474
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
垃圾网页是指一些网页通过不正当的手段来误导搜索引擎,使网页获得高于其应有的排名,从而获得更多的访问量,而它自身的质量并没有提高。垃圾网页的出现破坏了搜索引擎排名的公正性,损害了用户的搜索体验,更为Web信息带来严重的安全隐患。如何有效地检测出垃圾网页,保障用户的合法权益,成为搜索引擎面临的巨大挑战之一。因此,研究有效的垃圾网页的检测技术具有重要的意义及应用价值。本文首先介绍了搜索引擎对网页排序的原理,分析了垃圾网页的采用的作弊技术的类型及其原理与特点,描述了相应的垃圾网页的检测技术及研究现状。接着介绍了人工免疫系统的原理及常用算法,以及人工免疫系统的特点,重点分析了基于免疫克隆选择的分类算法,这是一种新兴的机器学习方法,在解决分类问题上非常有效。本文利用免疫克隆选择来检测垃圾网页,为垃圾网页的检测提供了一种新的研究方法和技术。然后设计了基于免疫克隆选择算法的垃圾网页检测系统框架,免疫克隆选择算法是人工免疫系统中常用的算法,具有自学习、自适应及区分自我与非我等能力,在本文中使用基于免疫克隆选择的算法来检测垃圾网页,同时加入特征选择以去掉冗余和无效的特征来提高检测效率及实用性。通过在数据集WEBSPAM-UK2006上的实验,分析验证了算法在对不平衡数据集分类时的不足,通过加入抗体抑制机制并控制不同类别的抗体数目来改进了免疫克隆选择分类算法,使之在数据集不平衡的情况下也能有很好的检测效果。并通过实验验证及与其他算法的实验对比,表明本文的基于改进免疫克隆选择算法的垃圾网页检测方法在数据集不平衡时对垃圾网页也有非常好的检测效果。最后通过使用集成学习的方法,进一步提升了算法的性能,通过实验验证使用Bagging集成方法构造的基于改进免疫克隆选择的组合分类器在对Spam检测及Normal检测的各项指标均有提高,比使用单一的基于改进免疫克隆选择的分类器取得了更好的检测效果。
其他文献
随着无线通信技术的发展,大多数的通信业务都发生在室内,传统宏基站室内覆盖不足的问题受到越来越多的关注。此时LTE Femto技术作为一种新兴技术走进了人们的生活当中,Femto
随着无线通信系统的快速发展,移动终端迫切急需小型化、多频带、宽频带和高效率的天线。复合左右手(Composite Right/Left-Handed,CRLH)传输线具有后向波、低损耗及可控的色
近些年来,随着无线通信技术、集成电路技术、传感器技术和嵌入式技术的不断发展,一项具有巨大潜力和广阔应用前景的新技术——无线传感器网络(Wireless Sensor Network, WSN)
无线通信技术的不断发展,使得无线频谱资源问题越来越突出,直接制约着未来宽带无线通信技术的发展。认知无线电技术的出现,既解决了无线频谱资源短缺的问题,又提高了频谱资源
在实践中,量子密钥分配(QKD)所能交换的信号数始终是有限的,由此有限密钥效应成为QKD在实际应用时必须考虑的一个问题。目前,有限密钥效应的研究主要集中于离散变量(DV)协议,
随着计算机技术和互联网的快速发展,以图像为重要表现形式的多媒体数据通信技术迅速起飞,简单的文本、语音通信形式不再满足人们的日常需求,多媒体通信给人们的学习环境、日
在数字图像处理领域中,图像去噪、图像分割一直是其中最为基础和最为重要的两个问题。医学图像作为图像分支中最为复杂、多样的一类,导致对医学图像的去噪和分割研究成为一项
无线自组织网络(Adhoc)是一种无中心、多跳、分布式部署的无线网络,具有可快速、独立组网的特点。无线自组织网络的通信节点之间独立平等,无需固定设备支持,因此抗毁能力较强
过去的几年里,为了解决无线通信产业带来的庞大的能量消耗,研究人员不断提出了许多新潮的技术。在5G逐渐向我们走来的时间里,密集组网技术带来系统容量进一步提升的同时,也使得异
随着移动通信数据业务的增长,无线网络架构从单模演化成多模并存的异构网,用户可以根据需要选用不同接入技术进行通信。接入技术的选择影响到网络吞吐量、频谱利用率,和对其