结合短文本内容的链接主题漂移识别研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:youkangstrong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,超链接如今已经变的非常普遍和典型,并且成了网络中非常重要的元素。超链接的种类繁多,包括相关推荐链接、资源链接、结构链接、广告链接和作弊链接等等。用户访问网站或者网页的频率以及网站自身的可用性和信息质量都会受到其中链接特征的影响,比如链接集中的状况、链接指向的网页的质量以及链接自身分布的特点等等。因而这些问题也一直都是链接分析领域关注和研究的热点。然而,随着超链接在互联网中的广泛分布,链接的主题漂移问题也日益凸显并且受到了广泛关注。互联网中不仅存在相关推荐链接、资源链接、扩展链接等指向内容与所在网页主题相关的链接,即没有产生主题漂移的链接;而且存在更多诸如无关推荐链接、结构链接、版权链接、广告链接、无效链接等指向内容与所在网页主题不相关的链接,甚至是一些恶意作弊的隐藏链接,这些链接都产生了不同程度的主题漂移,也即本文所要研究的问题。链接的主题漂移问题不仅会影响到网页的质量和用户的体验,还会对百度、Google等搜索引擎的爬虫算法产生干扰,从而影响到检索结果的质量。而如果不从PageRank等爬虫算法的角度,而是从当前网页的短文本中挖掘特征,来研究链接的主题漂移问题,对链接主题漂移进行定性和定量的识别,将有助于链接主题漂移问题的改善和进一步解决。基于此,本文的研究工作主要包括以下几个章节:第一章绪论。主要介绍了链接分析以及链接主题漂移问题的研究背景、研究意义、研究方法、研究的技术路线等,并总结了研究的创新点。第二章研究综述。详细介绍了链接分析的研究进展和链接分析中主题漂移问题的研究现状,包括PageRank改进算法中主题漂移问题的研究和HITS改进算法中主题漂移问题的研究现状,以及其他链接分析研究中有关链接主题漂移问题的研究等方面。第三章研究设计。主要对相关的核心概念和研究的核心问题进行了界定,然后详细介绍了研究的思路、方法和技术路线。第四章数据采集和预处理。首先介绍了选取的数据源,即待爬取的网页。然后明确了在爬取网页过程中的数据预处理策略,最后详细介绍了用Java爬取链接相关数据的过程。第五章基于链接上下文的主题漂移定性识别。首先介绍了链接上下文与所在百度百科网页的相似性计算,然后介绍了采集到的1067条链接的主题漂移与否的人工标注过程,最后介绍了基于C5.0决策树算法的不同长度的链接上下文对于链接主题漂移与否的识别方法和实验结果。第六章结合锚文本的主题漂移系数算法。首先介绍了如何基于搜索引擎对词条和锚文本这种短文本进行相似度计算,然后采用Java爬虫爬取了相关的数据和并完成了相关的计算,最后利用多元线性回归的方法得到了主题漂移系数的计算公式。第七章总结与展望。首先对研究结果和结论进行了进一步总结,然后再基于整体的研究,提出了在后续研究中可以进一步优化和完善的方向。
其他文献
纳米聚晶金刚石(NPD)的硬度、韧性、抗氧化性均十分优异,目前,本项目组以内包金刚石核心的碳纳米葱为前驱物,在较低压力和温度下合成出性能较好的NPD,使NPD工业化生产成为可
现阶段,人们仍然是通过化石燃料的燃烧获得能源。然而,这种能源获取的过程中会产生大量的有害物质如硫氧化物、氮氧化物和粉尘等,对我们的生存环境造成不可逆转的破坏。至此,
多粘菌素E(colistin)是由多粘类芽孢杆菌(Paenibacillus polymyxa)产生的一种环脂肽类抗生素,主要用于治疗多重耐药革兰氏阴性菌引起的感染。本实验室研究发现多粘菌素E对其产生
甲酚、苯酚普遍存在于实际焦化和其他含酚废水中,且含量占比高,属于“三致”芳香族有机化合物,低浓度下对水生动植物有害,并易在生物体内积累,传统水处理技术难以去除。生物
金属有机凝胶(Metal-organic gel,MOG)是一类新兴的智能软材料,其主要是通过金属-配体配位作用和非共价相互作用如氢键、范德华力、π-π堆积等作用力自组装形成的半固体材料。
分数阶微积分理论是一个研究任意阶次微分、积分算子特性及其应用的数学理论,其发展历史至今已经有300多年.有关分数阶微分方程边值问题的理论研究已经引起了国内外许多数学
自然界和人类活动中存在着能量巨大的耗散废热未被利用,而利用半导体Seebeck效应的热电转换技术可以将这些废热直接转换成高品质的电能,由于热电转换技术具有无运动部件、安
瓦楞结构作为一种薄壁多胞结构,因其具有较高的刚度重量比而被广泛应用于运输包装领域。该结构沿轴向受压发生塑性变形时具有出色的能量吸收能力,从微结构层次分析其组成要素
我国煤层地质条件复杂,且普遍存在低渗透性、高吸附性的特点,给瓦斯的抽采带来了很大的困难,必须采用人工致裂增透技术来改善煤层的透气性从而促进瓦斯的抽采利用。无水压裂
松口蘑(Tricholoma matsutake)属口蘑科口蘑属,是一种珍惜且濒危的野生食用菌,体内含有大量营养成分被誉为“蘑菇之王”,长白山松口蘑驰名中外,是我国出口松口蘑的重要产地之