论文部分内容阅读
网络技术的迅猛发展,使得电子科技文献信息呈爆炸式的增长,这些海量科技文献为我们提供了一个巨大的知识宝库,如果能对其加以合理利用,不仅可以节省研究人员检索文献的时间,快速的开始课题的研究工作,而且可以更好的实现知识的共享。因此,科技文献的挖掘就成为了一个首要的课题。文献挖掘的主要目的就是从众多的文献数据中抽取出隐含的、有价值的知识和规律。本文的文献挖掘工作主要围绕以下两个问题开展:第一,科研人员如何快速定位到高质量的并且是自己感兴趣的文章;第二,如何从文献中获得某一领域的主要的研究主题和主要的研究机构。针对第一个问题本文提出了解决方案——聚簇主题对的挖掘。鉴于相关文献的数量大并且有的文章阅读价值不是很高,提出了一个文献阅读价值评价的线性模型;然后挑选阅读价值高的文献进行文本的聚类;最后对每一个文献簇进行主题的描述。经过上述三个步骤的处理之后,用户可以根据相应的主题描述选择阅读或者不阅读此类文章,从而大大缩短文献检索的时间。针对第二个问题本文进行了热度分析的工作,包括对某领域研究主题的热度分析和该领域研究机构的热度分析。研究主题的热度分析主要采用了基于关键词共现分析的文献挖掘方法,然后用可视化的方式展示某时间段内某一领域的整体分布情况。在科研机构的热度分析中,本文综合考虑机构的研究人员数、发文量和被引文量,提出了研究热度评价方法,对每一个研究机构在各个时间段进行热度评价,然后绘制出热度趋势图。综上两个挖掘工作中,工作的贡献度主要体现在两点:第一,在聚簇主题对的挖掘过程中在保证不造成太多信息损失的情况下,首先对文献根据阅读价值度的评价进行文献的筛选之后,进行聚类,提高了聚类的性能。第二,在热度分析中加入了对机构的研究热度评价方法,挖掘出某领域中各个机构的研究热度变化趋势。