论文部分内容阅读
随着网络技术的迅猛发展,WWW 已成为信息发布、交互及获取的主要工具,它涉及新闻、广告、消费、金融、教育、电子商务等许多领域。Web 具有四个特点:庞大性、动态性、异构性、半结构化的数据结构环境。此外,Web还包含丰富和动态的超链接资源。面对Web 这些固有特点,人们要从这些海量的数据中查找数据和信息,使用最多的就是搜索引擎技术。Web 挖掘包含三个方面的内容:内容挖掘、结构挖掘和使用挖掘,本文主要涉及到其中的Web 结构挖掘。结构挖掘是从WWW 的组织结构、Web 文档结构和链接关系中推导知识。就搜索引擎技术领域来说,可以通过分析一个网页或整个网站链接和被链接的数量、对象,建立Web 自身的链接结构模式,通过分析和研究PageRank、HITS,TSPR 等基于链接结构的搜索结果排名算法,可以指导网站链接结构优化,有组织,有规划地提高网页在搜索结果中的排名,避免盲目处理造成的混乱结果。本文主要针对目前主流的PageRank 算法,集中研究了该算法的形成思路、计算方法,并分析该算法在独立网站、包含索引页面、包含入站链接和出站链接等几种模型下的效果,提出了相应的优化策略。然后概要介绍了java 版PageRank 计算程式的大体思路,并给出了通过本程序验证这些优化策略的实验结果。最后通过总结PageRank 算法的优缺点,引入了Topic Sensitive PageRank,Hilltop 等算法并做了简要介绍。Web 挖掘是知识时代人们对于从大量信息中获取知识的需要。对于搜索引