基于超图模型的排序问题研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:wangold
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的迅速发展和互联网规模的不断扩大,互联网已经成为了全球最大、最广泛使用的信息库,有效检索这些海量信息以获得感兴趣的部分已经成为人们迫切需要的服务。在实际应用中,网络搜索引擎不断抓取网络上的信息,通过一定规则的排序,将与用户查询相关的有序列表提供给用户。如何有效的对海量信息进行排序是当前信息处理研究领域中的重要课题。   互联网技术的革新使得Web资源逐渐从单一的超文本系统演化为多种信息相互关联的复杂对象,例如,文本、标题、资源标签,以及作者、来源等元信息描述。本文通过分析大量的Web数据,发现Web资源中存在着大量作用于多篇文档上的多元关系,例如用于描述文档的元信息和各种关联信息等。此外,Web文档中还存在多种异构特征,例如文本信息和链接关系。Web文档的这些复杂特点使得单一的文档排序方法很难适用,本文提出利用超图模型和基于超图的互训算法,利用Web文档排序中的多元、异构数据来改进排序。具体地,对于处理多元关系,本文利用超图模型中的超边来描述Web文档间的多元关系,进而实现基于权威度传播的排序算法。对于处理Web文档中的多组异构特征,采用多个超图对各组异构特征进行独立建模,利用各独立超图的排序结果进行相互反馈,从而避免了统一模型下异构特征量纲不一致所带来的困难,达到了使用多组信息来改善排序性能的目的。在特征权重设定上,本文利用奇异值分解方法来进行计算,从而减少了该模型方法的人工设置量,增大了数据处理的通用性,使得该模型的排序性能保持在一个较高的水平上。   为解决超图排序和互训排序中所需的大量的矩阵计算,本文使用Hadoop技术构建了一个分布式并行计算实验平台,并在多组权威数据集上进行实验,以验证本文提出的算法。实验结果表明,本文提出的超图排序算法和互训算法都具有较好的排序性能和可用性。
其他文献
随着生命科学的快速发展,在分子生物学中的一个主要挑战是揭示基因表达的调控机制,也就是说要知道基因表达的激活和抑制怎样实现的。面对这个挑战的一个主要步骤就是识别调控
随着网络的普及及发展,推荐系统越来越多地被应用在实际的商业应用中,越来越多的企业看到了推荐系统的价值。但是推荐系统在应用过程中,存在着数据稀疏性、可扩展性、用户兴
公开密钥加密体制(Public-key Encryption Scheme)也叫非对称加密体制,它的提出使密码学发生了一场根本性的变革,在此体制中使用两个密钥,即加密密钥和解密密钥,在与多个用户
随着Web 2.0的到来,网上信息量急剧增长,用户可利用的数据也越来越丰富。然而,用户不得不耗费大量的时间来获取有价值的信息。特别是大数据时代的到来,信息过载问题已然成为
人脸表情识别(Facial Expression Recognition,简称FER)是人工智能中一个非常重要且十分复杂的课题。人脸表情识别是指利用计算机对人脸图像进行分析,然后对其为哪种表情进行
学位
数据空间(Data Space)是作为解决当前数据管理所面临的挑战而提出的一种新的数据管理技术。随着信息技术的不断发展,数据源多源和多样化特点使的传统以关系数据结构为基础的数据
随着互联网的快速发展,网上的信息呈指数级增长,涌现了海量的XML数据,如何处理这些数量庞大的XML数据已经成为非常重要的研究课题。关系数据库技术已经十分成熟,在数据管理中
学位
MEMS是将微电子技术与机械工程融合到一起的一种工业技术,在近年来得到了越来越广泛的应用,在工业、信息和通信、航空航天、航海、医疗和生物工程、农业、环境和家庭服务等领
学位
随着信息技术的高速发展,中文信息处理在计算机各个领域得到了长足的发展,而中文分词是中文信息处理的基础所在,由于词是连接句子与信息处理平台的中间环节,因此中文分词的处
随着信息技术的飞快发展,信息的安全问题正在成为研究的热点。目前关于计算机设备的信息安全研究还主要集中在软件层面,虽然达到了比较好的效果,但没有从本质上解决安全问题
学位