论文部分内容阅读
网页作弊是指作弊者运用各种手段欺骗搜索引擎,使网页在搜索结果中获得高于其本身应得排名的行为。垃圾网页的泛滥严重危害了搜索引擎公司、合法网站和各类用户的利益,因此研究垃圾网页检测技术已成为一项艰巨而重要的任务。针对链接作弊,排序算法是一种有效手段。但由于Web中存在由正常网页指向垃圾网页的链接,导致排序算法(Anti-TrustRank等)检测性能降低,且多数排序算法没有考虑网页内容特性,因此本文改进Anti-TrustRank和加权非信任值排序(Weighted Anti-TrustRank, WATR)算法,提出了一种主题相似度和链接权重相结合,共同调节网页非信任值传播的排序算法,即结合主题与链接的非信任排序(Distrust Rank based on Topic and Link integration,TLDR)。其中,主题相似度权重运用隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)模型计算,链接权重根据链接结构计算。实验结果表明,与Anti-TrustRank和WATR相比,TLDR算法能使网页得到更合理的非信任值,检测性能有明显的提高。针对内容和链接作弊,本文从Web信息源质量、Web内容质量和Web应用质量三个子维度量化了网页质量,从危害度特性和主题特性两方面量化了语义特征,并与内容和链接特征共同构建了区分度高的特征集。此外,分类算法常用来解决垃圾网页检测问题,但分类算法性能易受数据分布不均衡的影响,而离群点挖掘算法正适用于不均衡的情况。因此本文采用基于熵的离群点挖掘(Entropy-based Outlier Mining, EOM)算法,并设计了级联检测框架,将检测分为内容特性检测、链接特性检测和语义特性检测三级进行。通过多组对比实验表明,本文的质量和语义特征能有效提高检测性能,EOM级联检测框架检测性能较高,且在数据分布不均衡的情况下相对于分类算法更具优势。