论文部分内容阅读
随着互联网技术的飞速发展,超链接如今已经变的非常普遍和典型,并且成了网络中非常重要的元素。超链接的种类繁多,包括相关推荐链接、资源链接、结构链接、广告链接和作弊链接等等。用户访问网站或者网页的频率以及网站自身的可用性和信息质量都会受到其中链接特征的影响,比如链接集中的状况、链接指向的网页的质量以及链接自身分布的特点等等。因而这些问题也一直都是链接分析领域关注和研究的热点。然而,随着超链接在互联网中的广泛分布,链接的主题漂移问题也日益凸显并且受到了广泛关注。互联网中不仅存在相关推荐链接、资源链接、扩展链接等指向内容与所在网页主题相关的链接,即没有产生主题漂移的链接;而且存在更多诸如无关推荐链接、结构链接、版权链接、广告链接、无效链接等指向内容与所在网页主题不相关的链接,甚至是一些恶意作弊的隐藏链接,这些链接都产生了不同程度的主题漂移,也即本文所要研究的问题。链接的主题漂移问题不仅会影响到网页的质量和用户的体验,还会对百度、Google等搜索引擎的爬虫算法产生干扰,从而影响到检索结果的质量。而如果不从PageRank等爬虫算法的角度,而是从当前网页的短文本中挖掘特征,来研究链接的主题漂移问题,对链接主题漂移进行定性和定量的识别,将有助于链接主题漂移问题的改善和进一步解决。基于此,本文的研究工作主要包括以下几个章节:第一章绪论。主要介绍了链接分析以及链接主题漂移问题的研究背景、研究意义、研究方法、研究的技术路线等,并总结了研究的创新点。第二章研究综述。详细介绍了链接分析的研究进展和链接分析中主题漂移问题的研究现状,包括PageRank改进算法中主题漂移问题的研究和HITS改进算法中主题漂移问题的研究现状,以及其他链接分析研究中有关链接主题漂移问题的研究等方面。第三章研究设计。主要对相关的核心概念和研究的核心问题进行了界定,然后详细介绍了研究的思路、方法和技术路线。第四章数据采集和预处理。首先介绍了选取的数据源,即待爬取的网页。然后明确了在爬取网页过程中的数据预处理策略,最后详细介绍了用Java爬取链接相关数据的过程。第五章基于链接上下文的主题漂移定性识别。首先介绍了链接上下文与所在百度百科网页的相似性计算,然后介绍了采集到的1067条链接的主题漂移与否的人工标注过程,最后介绍了基于C5.0决策树算法的不同长度的链接上下文对于链接主题漂移与否的识别方法和实验结果。第六章结合锚文本的主题漂移系数算法。首先介绍了如何基于搜索引擎对词条和锚文本这种短文本进行相似度计算,然后采用Java爬虫爬取了相关的数据和并完成了相关的计算,最后利用多元线性回归的方法得到了主题漂移系数的计算公式。第七章总结与展望。首先对研究结果和结论进行了进一步总结,然后再基于整体的研究,提出了在后续研究中可以进一步优化和完善的方向。