基于引用网络的学术文献排名算法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:wangzu03
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
学术文献排名算法是对海量的学术论文进行排名的一种技术,为了在海量的科技文献中获得研究者需要的论文,给不同级别的研究者推荐符合他们研究方向和需要的论文,都要求对学术文献排名算法这项技术进行研究。本文在对目前的文献排名算法进行分析后,提出了两种排名效果更好、排名结果更符合人们实际需求的学术文献排名算法。当PageRank算法应用在文献领域的情况下,应用的数据不可能是包括所有文献的数据集,必然导致引用网络图是不完整的,这样将会有很多异常的现象,例如:一篇论文被很多文献引用,但是只有一篇引用文献在引用网络图中,因此,该篇论文的权值就会很小。如上所述,即使一篇论文是一篇质量很高的文章,但引用它的文献大部分不在引用网络图中会造成权值变小。依次递推,该篇论文引用其他文献,赋给其他文献的权值也很小,很显然这是会造成误差的。为了克服这个问题,在本文中通过在引用网络中加入虚拟节点和对虚拟节点进行分等级,从而提出了基于外部链接的ELRank排名算法和扩展的N-ELRank排名算法来修正这个问题。实验表明,ELRank和CitationCount的相关度比PageRank和CitationCount相关度高出很多.本文改进的ELRank算法达到了预期的效果,质量高的文章不会因为引用它的论文只有一篇在数据集内,而让该高质量论文的权值很低,造成排名误差。当前的文献排名算法没有综合考虑时间和关注度的影响,是计算整个时间段的权值,这导致旧文章通过时间的积累,获得了很多引用。这样容易给旧文章很高的权值,从而降低新文章的相对权值。为了改进这个问题,使新文章和旧文章区别对待,本文加入论文的类型和关注度因子,并对时间进行分片,提出了TSRank算法。实验表明,通过TSRank排名的前100篇高质量论文中,发表时间集中在近五年,而其它算法都集中在90年代末期,TSRank排名算法比其他算法更符合人们喜欢新的高质量文献原则。
其他文献
地表数据集的精度对陆面模式CLM3.5的模拟结果精度有较为明显的影响,尤其对较小区域进行模拟实验时,低分辨率的地表数据对模拟精度的影响更加明显;本论文的研究目标是使用广
嵌入式产品的人机交互功能越来越被人们所重视,图形用户界面作为人机交互的桥梁显得格外重要。这就对图形系统的控件集提出了新的要求,控件集在满足轻便、高效、美观、易维护的
服务器前置是指将视频服务器部署在靠近客户端的地方,通常是用户密集的局域网中。缓冲区管理对于提高服务器前置高清VOD系统的效能非常重要。VOD系统访问缓冲区的行为特征,与程
随着信息技术的快速发展,网络在当今社会中所占的举足轻重的地位日益明显。网络的规模不断扩大、拓扑复杂性日益明显、系统多样性持续增加、异构网络逐步融合,导致网络管理难度
无线Mesh网络(Wireless Mesh Network,简称WMN)是一种不需要中心服务器的多跳网络,具有自组织、自愈合、自管理、高存储、高速率、低成本等优点。在WMN中,由于结点与结点间业
从技术层面看,视频监控技术经历了第一代模拟监控、第二代数字监控,发展到了目前的第三代网络监控阶段。网络视频存储系统,具有访问客户端多,图像清晰度要求高,数据流稳定,存储时间
当前,数字打印系统通常是由计算机与打印机连接的传统打印方式来实现的。这种打印系统对计算机的依赖性较强,在没有计算机的情况下无法进行打印工作。因此,通过对USB直接打印技
近年来,随着网络技术的发展,人们希望在任何时间任何地点都能获取所需要的信息,这进一步推动了无线移动自组网(Ad Hoc)的研究。Ad Hoc网络的路由问题是当前的研究重点,科学家
随着色彩再现技术的不断革新,计算机应用领域的不断扩大,色彩再现设备也在不断地发展和改进。色彩是图像中的重要组成信息,随着信息化、网络化的不断发展,诸如:打印机、显示
Web服务由于其互操作性和重用性,成为了面向服务的体系架构(SOA)的核心支撑技术。如何利用数量众多的Web服务组建松散耦合的企业应用系统,以满足不断变化的业务需求,已成为一个