论文部分内容阅读
Web已经成为人类存储和共享信息的主要平台。对于这个庞大的信息源,如何检索有用的信息是个十分具有挑战性的课题。由于Web的特性,如大量的非结构或半结构化的文档以及多媒体信息、参差不齐的网页质量等,使传统的用于结构化数据的信息检索技术很难有效地应用。Web上的信息检索已经形成一门独立学科,研究内容非常广泛。本文针对Web上的信息检索的研究热点,在以下几个方面展开深入研究。首先,本文研究了现代搜索引擎的重要组成部分——网页排名算法。针对现在主流的主题相关网页排名算法HITS的不足,本文提出了基于引力模型的排名算法G-HITS。该模型将网页看作质点,将涉及网页排名的各种因素描述成网页的质量或距离,用万有引力描述网页的关系,从而克服纯粹基于链接的排名算法的不足。其次,针对日益猖獗的网页排名作弊现象,本文研究了反基于链接的网页排名作弊问题。本文首先分析了著名的TrustRank算法和Anti-TrustRank算法只能传播信任或非信任的问题,提出了同时传播信任和非信任的综合框架。该算法克服了TrustRank算法和Anti-TrustRank算法的不足,提高了反网页排名作弊的效率。第三,本文研究了Web上社区识别问题。社区是Web上的重要现象,反映了Web上话题的分布。社区识别可以通过挖掘Web图的稠密子图发现这种话题分布。现有社区识别算法都是以网页为基本单位的。但每个网页都包含多个主题。本文提出了基于网页分块的社区识别算法,解决了网页的多主题问题,使社区识别的精确度得到明显提高。最后,本文研究了Web上的话题检测问题。为了更有效地检测话题,本文首先研究了谱聚类算法,对现有谱聚类算法进行了改进,并用改进的谱聚类算法进行话题检测。接下来,本文提出基于超图划分的话题检测算法。该算法对Web特征进行了二次提取,并使用超图划分算法进行话题检测,使话题检测的精度得到明显提高。