论文部分内容阅读
随着网络技术的迅速发展和互联网规模的不断扩大,互联网已经成为了全球最大、最广泛使用的信息库,有效检索这些海量信息以获得感兴趣的部分已经成为人们迫切需要的服务。在实际应用中,网络搜索引擎不断抓取网络上的信息,通过一定规则的排序,将与用户查询相关的有序列表提供给用户。如何有效的对海量信息进行排序是当前信息处理研究领域中的重要课题。
互联网技术的革新使得Web资源逐渐从单一的超文本系统演化为多种信息相互关联的复杂对象,例如,文本、标题、资源标签,以及作者、来源等元信息描述。本文通过分析大量的Web数据,发现Web资源中存在着大量作用于多篇文档上的多元关系,例如用于描述文档的元信息和各种关联信息等。此外,Web文档中还存在多种异构特征,例如文本信息和链接关系。Web文档的这些复杂特点使得单一的文档排序方法很难适用,本文提出利用超图模型和基于超图的互训算法,利用Web文档排序中的多元、异构数据来改进排序。具体地,对于处理多元关系,本文利用超图模型中的超边来描述Web文档间的多元关系,进而实现基于权威度传播的排序算法。对于处理Web文档中的多组异构特征,采用多个超图对各组异构特征进行独立建模,利用各独立超图的排序结果进行相互反馈,从而避免了统一模型下异构特征量纲不一致所带来的困难,达到了使用多组信息来改善排序性能的目的。在特征权重设定上,本文利用奇异值分解方法来进行计算,从而减少了该模型方法的人工设置量,增大了数据处理的通用性,使得该模型的排序性能保持在一个较高的水平上。
为解决超图排序和互训排序中所需的大量的矩阵计算,本文使用Hadoop技术构建了一个分布式并行计算实验平台,并在多组权威数据集上进行实验,以验证本文提出的算法。实验结果表明,本文提出的超图排序算法和互训算法都具有较好的排序性能和可用性。