论文部分内容阅读
垃圾网页是指一些网页通过不正当的手段来误导搜索引擎,使网页获得高于其应有的排名,从而获得更多的访问量,而它自身的质量并没有提高。垃圾网页的出现破坏了搜索引擎排名的公正性,损害了用户的搜索体验,更为Web信息带来严重的安全隐患。如何有效地检测出垃圾网页,保障用户的合法权益,成为搜索引擎面临的巨大挑战之一。因此,研究有效的垃圾网页的检测技术具有重要的意义及应用价值。本文首先介绍了搜索引擎对网页排序的原理,分析了垃圾网页的采用的作弊技术的类型及其原理与特点,描述了相应的垃圾网页的检测技术及研究现状。接着介绍了人工免疫系统的原理及常用算法,以及人工免疫系统的特点,重点分析了基于免疫克隆选择的分类算法,这是一种新兴的机器学习方法,在解决分类问题上非常有效。本文利用免疫克隆选择来检测垃圾网页,为垃圾网页的检测提供了一种新的研究方法和技术。然后设计了基于免疫克隆选择算法的垃圾网页检测系统框架,免疫克隆选择算法是人工免疫系统中常用的算法,具有自学习、自适应及区分自我与非我等能力,在本文中使用基于免疫克隆选择的算法来检测垃圾网页,同时加入特征选择以去掉冗余和无效的特征来提高检测效率及实用性。通过在数据集WEBSPAM-UK2006上的实验,分析验证了算法在对不平衡数据集分类时的不足,通过加入抗体抑制机制并控制不同类别的抗体数目来改进了免疫克隆选择分类算法,使之在数据集不平衡的情况下也能有很好的检测效果。并通过实验验证及与其他算法的实验对比,表明本文的基于改进免疫克隆选择算法的垃圾网页检测方法在数据集不平衡时对垃圾网页也有非常好的检测效果。最后通过使用集成学习的方法,进一步提升了算法的性能,通过实验验证使用Bagging集成方法构造的基于改进免疫克隆选择的组合分类器在对Spam检测及Normal检测的各项指标均有提高,比使用单一的基于改进免疫克隆选择的分类器取得了更好的检测效果。