论文部分内容阅读
学术文献排名算法是对海量的学术论文进行排名的一种技术,为了在海量的科技文献中获得研究者需要的论文,给不同级别的研究者推荐符合他们研究方向和需要的论文,都要求对学术文献排名算法这项技术进行研究。本文在对目前的文献排名算法进行分析后,提出了两种排名效果更好、排名结果更符合人们实际需求的学术文献排名算法。当PageRank算法应用在文献领域的情况下,应用的数据不可能是包括所有文献的数据集,必然导致引用网络图是不完整的,这样将会有很多异常的现象,例如:一篇论文被很多文献引用,但是只有一篇引用文献在引用网络图中,因此,该篇论文的权值就会很小。如上所述,即使一篇论文是一篇质量很高的文章,但引用它的文献大部分不在引用网络图中会造成权值变小。依次递推,该篇论文引用其他文献,赋给其他文献的权值也很小,很显然这是会造成误差的。为了克服这个问题,在本文中通过在引用网络中加入虚拟节点和对虚拟节点进行分等级,从而提出了基于外部链接的ELRank排名算法和扩展的N-ELRank排名算法来修正这个问题。实验表明,ELRank和CitationCount的相关度比PageRank和CitationCount相关度高出很多.本文改进的ELRank算法达到了预期的效果,质量高的文章不会因为引用它的论文只有一篇在数据集内,而让该高质量论文的权值很低,造成排名误差。当前的文献排名算法没有综合考虑时间和关注度的影响,是计算整个时间段的权值,这导致旧文章通过时间的积累,获得了很多引用。这样容易给旧文章很高的权值,从而降低新文章的相对权值。为了改进这个问题,使新文章和旧文章区别对待,本文加入论文的类型和关注度因子,并对时间进行分片,提出了TSRank算法。实验表明,通过TSRank排名的前100篇高质量论文中,发表时间集中在近五年,而其它算法都集中在90年代末期,TSRank排名算法比其他算法更符合人们喜欢新的高质量文献原则。