【摘 要】
:
搜索引擎作弊,是指采用欺骗搜索引擎的手段使得Web页面在检索结果中的排名高于其实际应得排名的行为。搜索引擎作弊行为的猖獗导致搜索引擎检索结果的质量不断下降,被公认为
论文部分内容阅读
搜索引擎作弊,是指采用欺骗搜索引擎的手段使得Web页面在检索结果中的排名高于其实际应得排名的行为。搜索引擎作弊行为的猖獗导致搜索引擎检索结果的质量不断下降,被公认为是互联网搜索所面临的最大挑战之一。搜索引擎作弊检测方法的研究是一项有意义的课题。本文的主要工作和贡献在于:1.从网站自身角度进行作弊检测。有监督机器学习的搜索引擎作弊检测需要大量昂贵手工标号样本,针对这一问题,论文提出了一种基于调和函数的半监督学习方法。该方法通过在标签网页和未标签网页为顶点组成的无向带权图上进行半监督学习,充分利用未标签样本的信息。图中顶点通过网页间的相似性建立联系,避免了由于作弊网页和非作弊网页相链接而造成半监督学习不精确的问题。实验结果表明,基于调和函数的半监督学习垃圾网页检测方法在提高精度、召全率和F-measure方面是有效的。2.从搜索引擎用户角度进行作弊检测。搜索引擎查询日志记录了用户与搜索引擎的交互信息。日志中被点击的URL及其点击顺序等信息反映了用户的喜好。论文提出了一种改进的动态贝叶斯网络模型为日志点击行为建模,通过挖掘搜索引擎返回列表序列中URL之间的点击因果关系,得到从用户角度出发的网页与查询的相关性,从而对网页进行排名,降低作弊网页的排名位置。实验表明改进的动态贝叶斯网络模型是优于其它模型的。
其他文献
背景和目的盆腔淋巴囊肿是盆腔淋巴结清扫术后常见的并发症之一。盆腔淋巴囊肿的形成机制尚不明确,目前认为一方面由于手术创伤大,术中造成淋巴管断裂,原有的淋巴循环紊乱,淋
预付费会员卡消费是指消费者与经营者之间达成的在消费者消费之前通过购买商家提供的“会员卡”而预先支付一定费用的新兴消费模式。对于消费者和商家来说,通过会员卡消费理
目的:通过对迷迭香药材的化学成分的深入研究,希望为迷迭香药材的进一步研究提供基础。材料与方法:采用硅胶柱色谱、HPLC及Sephadex LH-20柱色谱等多种分离方法,对中药迷迭香
清代是满洲贵族统治的一个多民族融合的朝代,也是打开国门走向世界的开端。清王朝(公元1644——1911年)从建立、发展直至衰亡,它的政治制度、经济水平和思想观念都直接或间接
随着知识产权经济及战略地位的提高,人们对专利也更加重视。伴随权利保护而来的是权利滥用,专利恶意诉讼也逐渐成了一个困扰权利相对人、立法者、司法者以及学者们的问题。20
班组是潍坊移动的细胞,是潍坊移动各项工作的落脚点,班组工作是潍坊移动的基础工作,加强潍坊移动班组建设,对落实党的方针政策,搞好潍坊移动班组科学管理,增强潍坊移动活力,
艾滋病是由人类免疫缺陷病毒(HIV)感染引起的一种慢性传染病,其特征为HIV特异性地攻击CD4+T淋巴细胞,造成人体免疫功能的进行性破坏,导致各种机会性感染和相关肿瘤的发生,最
在民法上,物是很重要的一类客体。按照物在空间位置上移动是否损害其价值的标准,将物分为动产和不动产。所谓不动产是指:依据物的性质,在空间上不能移动或者虽然能够移动,但是
力值国家基准是一种用于产生基准力值的固定式仪器,主要用于定度标准测力仪。在国家的科研和工业生产等领域经常会遇到测量力值大小的实际问题,所以力值计量必不可少。为了保
中国是个有着五千年悠久历史的文明古国,在几千年的文化发展过程中,逐步形成了一系列有着自己特色的语言系统,而在历史发展过程中,中国与各个国家进行了各方面的交流,而在彼